論文の概要: Efficient-VDVAE: Less is more
- arxiv url: http://arxiv.org/abs/2203.13751v1
- Date: Fri, 25 Mar 2022 16:29:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 12:38:09.003482
- Title: Efficient-VDVAE: Less is more
- Title(参考訳): 効率的なVDVAE: より少ない
- Authors: Louay Hazami, Rayhane Mama, Ragavan Thurairatnam
- Abstract要約: 我々は、超深度BAEを2.6倍の速度で収束させる修正を提示する。
我々のモデルは、現在の最先端モデルよりも、同等またはより優れた負のログライクチュア性能を達成する。
我々は、階層型VAEの潜在空間次元の約3%が、画像情報のほとんどを符号化するのに十分なものであることを実証的に実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical VAEs have emerged in recent years as a reliable option for
maximum likelihood estimation. However, instability issues and demanding
computational requirements have hindered research progress in the area. We
present simple modifications to the Very Deep VAE to make it converge up to
$2.6\times$ faster, save up to $20\times$ in memory load and improve stability
during training. Despite these changes, our models achieve comparable or better
negative log-likelihood performance than current state-of-the-art models on all
$7$ commonly used image datasets we evaluated on. We also make an argument
against using 5-bit benchmarks as a way to measure hierarchical VAE's
performance due to undesirable biases caused by the 5-bit quantization.
Additionally, we empirically demonstrate that roughly $3\%$ of the hierarchical
VAE's latent space dimensions is sufficient to encode most of the image
information, without loss of performance, opening up the doors to efficiently
leverage the hierarchical VAEs' latent space in downstream tasks. We release
our source code and models at https://github.com/Rayhane-mamah/Efficient-VDVAE .
- Abstract(参考訳): 階層型VAEは近年,最大推定のための信頼性の高い選択肢として出現している。
しかし、不安定な問題や計算要求がこの地域の研究を妨げている。
私たちは、非常に深いvaeをシンプルに修正して、最大2.6\times$を速くし、最大20\times$のメモリ負荷を節約し、トレーニング中に安定性を向上させます。
これらの変更にもかかわらず、我々のモデルは、私たちが評価した7ドルの一般的な画像データセットに対して、現在の最先端モデルと比べて、同等またはより良い負のログライクなパフォーマンスを達成する。
また,5ビット量子化による望ましくないバイアスによる階層的VAEの性能の測定方法として,5ビットベンチマークの使用に反対している。
さらに、階層型VAEの潜時空間次元の約3.5%は、性能を損なわずに画像情報のほとんどを符号化するのに十分であり、下流タスクにおける階層型VAEの潜時空間を効率的に活用するために扉を開くことを実証的に実証した。
私たちはソースコードとモデルをhttps://github.com/Rayhane-mamah/Efficient-VDVAEでリリースしています。
関連論文リスト
- SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。
これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。
本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - Exploiting Distribution Constraints for Scalable and Efficient Image Retrieval [1.6874375111244329]
最先端の画像検索システムは、データセットごとに特定のニューラルネットワークをトレーニングする。
オフザシェルフのファンデーションモデルは、データセット固有のモデルに匹敵するパフォーマンスを達成するには不足している。
本稿では,基本モデルの性能を著しく向上するAE-SVC(Strong Variance Constraints)を用いたオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-10-09T16:05:16Z) - Balancing Performance and Efficiency in Zero-shot Robotic Navigation [1.6574413179773757]
本稿では,ロボット工学におけるオブジェクトゴールナビゲーションタスクに適用したビジョンランゲージフロンティアマップの最適化研究について述べる。
本研究は,視覚言語モデル,オブジェクト検出器,セグメンテーションモデル,視覚質問応答モジュールの効率と性能を評価する。
論文 参考訳(メタデータ) (2024-06-05T07:31:05Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them
on Images [9.667538864515285]
我々は,すべての自然画像ベンチマークにおいて,PixelCNNをログライクな性能で上回りながら,初めてサンプルを高速に生成する階層型VAEを提案する。
理論上、VAEは自己回帰モデルを表現することができ、もし存在すればより高速でより良いモデルを作ることができる。
論文 参考訳(メタデータ) (2020-11-20T21:35:31Z) - NVAE: A Deep Hierarchical Variational Autoencoder [102.29977384039805]
本稿では,深度ワイド分離可能な畳み込みとバッチ正規化を用いた画像生成のための階層型VAEを提案する。
NVAEは非自己回帰的確率ベースモデルにおいて最先端の結果が得られることを示す。
我々の知る限りでは、NVAEは256$times $256ピクセルの自然画像に適用された最初のVAEである。
論文 参考訳(メタデータ) (2020-07-08T04:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。