論文の概要: ALAP-AE: As-Lite-as-Possible Auto-Encoder
- arxiv url: http://arxiv.org/abs/2203.10363v1
- Date: Sat, 19 Mar 2022 18:03:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 18:02:56.188631
- Title: ALAP-AE: As-Lite-as-Possible Auto-Encoder
- Title(参考訳): ALAP-AE: As-Lite-as-Possible Auto-Encoder
- Authors: Nisarg A. Shah and Gaurav Bharaj
- Abstract要約: 本稿では,条件付き画像生成オートエンコーダが必要とするテンソル計算を削減するアルゴリズムを提案する。
条件付き画像生成タスクの性能向上を示す。
画像品質を維持しつつ、CPUのみのデバイス上で様々なオートエンコーダのリアルタイムバージョンを実現する。
- 参考スコア(独自算出の注目度): 6.244939945140818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel algorithm to reduce tensor compute required by a
conditional image generation autoencoder and make it as-lite-as-possible,
without sacrificing quality of photo-realistic image generation. Our method is
device agnostic, and can optimize an autoencoder for a given CPU-only, GPU
compute device(s) in about normal time it takes to train an autoencoder on a
generic workstation. We achieve this via a two-stage novel strategy where,
first, we condense the channel weights, such that, as few as possible channels
are used. Then, we prune the nearly zeroed out weight activations, and
fine-tune this lite autoencoder. To maintain image quality, fine-tuning is done
via student-teacher training, where we reuse the condensed autoencoder as the
teacher. We show performance gains for various conditional image generation
tasks: segmentation mask to face images, face images to cartoonization, and
finally CycleGAN-based model on horse to zebra dataset over multiple compute
devices. We perform various ablation studies to justify the claims and design
choices, and achieve real-time versions of various autoencoders on CPU-only
devices while maintaining image quality, thus enabling at-scale deployment of
such autoencoders.
- Abstract(参考訳): 本稿では,条件付き画像生成オートエンコーダが要求するテンソル計算を削減し,フォトリアリスティック画像生成の品質を犠牲にすることなく,適度に実現可能にするアルゴリズムを提案する。
本手法はデバイス非依存であり,CPUのみのGPU計算デバイスに対して,汎用ワークステーション上でオートエンコーダをトレーニングするのに要する通常の時間でオートエンコーダを最適化することができる。
まずチャネル重みを凝縮し、可能な限りチャネルを使わないようにする2段階の新規戦略によってこれを達成する。
そして、ほぼゼロに近いウェイトアクティベーションをエクアリングし、このライトオートエンコーダを微調整する。
画質を維持するために,教師と教師のトレーニングによって微調整を行い,教師として自動エンコーダを再利用する。
顔画像に対するセグメンテーションマスク,マンガ化のための顔画像,そして最後に複数のコンピュータデバイス上でのシーブラデータセットに対するCycleGANベースモデルなど,様々な条件付き画像生成タスクのパフォーマンス向上を示す。
我々は、クレームと設計選択を正当化し、画像品質を維持しながら、CPU専用デバイス上で様々なオートエンコーダのリアルタイムバージョンを実現するために、様々なアブレーション研究を行い、そのようなオートエンコーダの大規模展開を可能にした。
関連論文リスト
- Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders [89.12558126877532]
そこで我々は,SiamMAE が導入した Siamese プレトレーニングの代替手法である CropMAE を提案する。
本手法では, ビデオから抽出した従来のフレームの対から切り離して, 同一画像から抽出した画像の対を別々に抽出する。
CropMAEは、これまでで最も高いマスキング比(98.5%)を達成し、2つの目に見えるパッチのみを使用して画像の再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:04:19Z) - An Efficient Implicit Neural Representation Image Codec Based on Mixed Autoregressive Model for Low-Complexity Decoding [43.43996899487615]
画像圧縮のためのインプシットニューラル表現(INR)は、最先端のオートエンコーダモデルと比較して2つの重要な利点を提供する新興技術である。
我々は、現在のINRの復号時間を大幅に削減するために、新しいMixed AutoRegressive Model (MARM)を導入する。
MARMには提案したAutoRegressive Upsampler(ARU)ブロックが含まれている。
論文 参考訳(メタデータ) (2024-01-23T09:37:58Z) - Collaborative Auto-encoding for Blind Image Quality Assessment [17.081262827258943]
ブラインド画像品質評価(BIQA)は、重要な現実世界のアプリケーションにおいて難しい問題である。
近年、ディープニューラルネットワーク(DNN)による強力な表現を活用しようとする試みは、主観的な注釈付きデータの欠如によって妨げられている。
本稿では,この基本的な障害を克服する新しいBIQA法を提案する。
論文 参考訳(メタデータ) (2023-05-24T03:45:03Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Lookahead optimizer improves the performance of Convolutional
Autoencoders for reconstruction of natural images [0.0]
オートエンコーダ(Autoencoder)は、近年注目を集めている人工知能のクラスである。
Lookahead(とAdam)は、自然画像の再構成のためのCAEの性能を改善している。
本研究では,自然画像の再構成におけるCAEの性能向上を(アダムと共に)示す。
論文 参考訳(メタデータ) (2020-12-03T03:18:28Z) - VCE: Variational Convertor-Encoder for One-Shot Generalization [3.86981854389977]
変分変換エンコーダ(VCE)は、画像を様々なスタイルに変換する。
本稿では,一括一般化問題に対する新しいアーキテクチャを提案する。
また, 変分オートエンコーダ(VAE)の性能を向上し, その曖昧な点をフィルタする。
論文 参考訳(メタデータ) (2020-11-12T07:58:14Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。