論文の概要: Efficient-VDVAE: Less is more
- arxiv url: http://arxiv.org/abs/2203.13751v1
- Date: Fri, 25 Mar 2022 16:29:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 12:38:09.003482
- Title: Efficient-VDVAE: Less is more
- Title(参考訳): 効率的なVDVAE: より少ない
- Authors: Louay Hazami, Rayhane Mama, Ragavan Thurairatnam
- Abstract要約: 我々は、超深度BAEを2.6倍の速度で収束させる修正を提示する。
我々のモデルは、現在の最先端モデルよりも、同等またはより優れた負のログライクチュア性能を達成する。
我々は、階層型VAEの潜在空間次元の約3%が、画像情報のほとんどを符号化するのに十分なものであることを実証的に実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical VAEs have emerged in recent years as a reliable option for
maximum likelihood estimation. However, instability issues and demanding
computational requirements have hindered research progress in the area. We
present simple modifications to the Very Deep VAE to make it converge up to
$2.6\times$ faster, save up to $20\times$ in memory load and improve stability
during training. Despite these changes, our models achieve comparable or better
negative log-likelihood performance than current state-of-the-art models on all
$7$ commonly used image datasets we evaluated on. We also make an argument
against using 5-bit benchmarks as a way to measure hierarchical VAE's
performance due to undesirable biases caused by the 5-bit quantization.
Additionally, we empirically demonstrate that roughly $3\%$ of the hierarchical
VAE's latent space dimensions is sufficient to encode most of the image
information, without loss of performance, opening up the doors to efficiently
leverage the hierarchical VAEs' latent space in downstream tasks. We release
our source code and models at https://github.com/Rayhane-mamah/Efficient-VDVAE .
- Abstract(参考訳): 階層型VAEは近年,最大推定のための信頼性の高い選択肢として出現している。
しかし、不安定な問題や計算要求がこの地域の研究を妨げている。
私たちは、非常に深いvaeをシンプルに修正して、最大2.6\times$を速くし、最大20\times$のメモリ負荷を節約し、トレーニング中に安定性を向上させます。
これらの変更にもかかわらず、我々のモデルは、私たちが評価した7ドルの一般的な画像データセットに対して、現在の最先端モデルと比べて、同等またはより良い負のログライクなパフォーマンスを達成する。
また,5ビット量子化による望ましくないバイアスによる階層的VAEの性能の測定方法として,5ビットベンチマークの使用に反対している。
さらに、階層型VAEの潜時空間次元の約3.5%は、性能を損なわずに画像情報のほとんどを符号化するのに十分であり、下流タスクにおける階層型VAEの潜時空間を効率的に活用するために扉を開くことを実証的に実証した。
私たちはソースコードとモデルをhttps://github.com/Rayhane-mamah/Efficient-VDVAEでリリースしています。
関連論文リスト
- MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。
これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。
本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - Exploiting Distribution Constraints for Scalable and Efficient Image Retrieval [1.6874375111244329]
最先端の画像検索システムは、データセットごとに特定のニューラルネットワークをトレーニングする。
オフザシェルフのファンデーションモデルは、データセット固有のモデルに匹敵するパフォーマンスを達成するには不足している。
本稿では,基本モデルの性能を著しく向上するAE-SVC(Strong Variance Constraints)を用いたオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-10-09T16:05:16Z) - Balancing Performance and Efficiency in Zero-shot Robotic Navigation [1.6574413179773757]
本稿では,ロボット工学におけるオブジェクトゴールナビゲーションタスクに適用したビジョンランゲージフロンティアマップの最適化研究について述べる。
本研究は,視覚言語モデル,オブジェクト検出器,セグメンテーションモデル,視覚質問応答モジュールの効率と性能を評価する。
論文 参考訳(メタデータ) (2024-06-05T07:31:05Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them
on Images [9.667538864515285]
我々は,すべての自然画像ベンチマークにおいて,PixelCNNをログライクな性能で上回りながら,初めてサンプルを高速に生成する階層型VAEを提案する。
理論上、VAEは自己回帰モデルを表現することができ、もし存在すればより高速でより良いモデルを作ることができる。
論文 参考訳(メタデータ) (2020-11-20T21:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。