論文の概要: LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2405.14477v1
- Date: Thu, 23 May 2024 12:06:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 15:24:46.848064
- Title: LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models
- Title(参考訳): LiteVAE:潜在拡散モデルのための軽量かつ効率的な変分オートエンコーダ
- Authors: Seyedmorteza Sadat, Jakob Buhmann, Derek Bradley, Otmar Hilliges, Romann M. Weber,
- Abstract要約: LiteVAEは、潜在拡散モデル(LDM)のためのオートエンコーダのファミリーである
我々のモデルは、現在のLCDにおける確立されたVAEの品質と、エンコーダパラメータの6倍の削減とを一致させる。
私たちのより大きなモデルは、評価されたすべてのメトリクスで、同等の複雑さのVAEよりも優れています。
- 参考スコア(独自算出の注目度): 27.795088366122297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in latent diffusion models (LDMs) have revolutionized high-resolution image generation, but the design space of the autoencoder that is central to these systems remains underexplored. In this paper, we introduce LiteVAE, a family of autoencoders for LDMs that leverage the 2D discrete wavelet transform to enhance scalability and computational efficiency over standard variational autoencoders (VAEs) with no sacrifice in output quality. We also investigate the training methodologies and the decoder architecture of LiteVAE and propose several enhancements that improve the training dynamics and reconstruction quality. Our base LiteVAE model matches the quality of the established VAEs in current LDMs with a six-fold reduction in encoder parameters, leading to faster training and lower GPU memory requirements, while our larger model outperforms VAEs of comparable complexity across all evaluated metrics (rFID, LPIPS, PSNR, and SSIM).
- Abstract(参考訳): 遅延拡散モデル(LDMs)の進歩は高解像度画像生成に革命をもたらしたが、これらのシステムの中心となるオートエンコーダの設計空間はいまだ探索されていない。
本稿では,2次元離散ウェーブレット変換を利用して,出力品質を犠牲にすることなく,標準変分オートエンコーダ(VAE)のスケーラビリティと計算効率を向上させるLCM用オートエンコーダのファミリーであるLiteVAEを紹介する。
また、LiteVAEのトレーニング手法とデコーダアーキテクチャについても検討し、トレーニングのダイナミクスと再構築品質を改善するためのいくつかの拡張を提案する。
我々のベースとなるLiteVAEモデルは、現在のLCDにおける確立されたVAEの品質と、6倍のエンコーダパラメータの削減により、高速なトレーニングとGPUメモリ要求の低減を実現しています。
関連論文リスト
- A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - Unified Generation, Reconstruction, and Representation: Generalized Diffusion with Adaptive Latent Encoding-Decoding [90.77521413857448]
深層生成モデルは,3つのコア機能 – 新たなインスタンスの生成,入力の再構築,コンパクト表現の学習 – に固定されている。
一般化逆変換拡散確率モデル(EDDPM)を導入する。
EDDPMはパラメタライズされた符号化復号を導入することで標準拡散におけるガウス雑音化を一般化する。
テキスト、タンパク質、画像の実験は、多様なデータやタスクを扱う柔軟性を示している。
論文 参考訳(メタデータ) (2024-02-29T10:08:57Z) - Sample as You Infer: Predictive Coding With Langevin Dynamics [11.515490109360012]
汎用的な深層生成モデルにおけるパラメータ学習のための新しいアルゴリズムを提案する。
提案手法は,標準変分自動エンコーダトレーニングから得られる性能と超越性を実現するために,標準PCアルゴリズムを改良する。
論文 参考訳(メタデータ) (2023-11-22T19:36:47Z) - Attentive VQ-VAE [0.0]
本稿では,残像エンコーダと残像アテンション層(AREN)を統合することで,VQ-VAEモデルの能力を高める新しいアプローチを提案する。
ARENは複数のレベルで効果的に動作し、多様なアーキテクチャの複雑さを収容するように設計されている。
論文 参考訳(メタデータ) (2023-09-20T21:11:36Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Algorithm and Hardware Co-Design of Energy-Efficient LSTM Networks for
Video Recognition with Hierarchical Tucker Tensor Decomposition [22.502146009817416]
長期記憶(Long Short-term memory、LSTM)は、シーケンス解析やモデリングアプリケーションで広く使われている強力なディープニューラルネットワークである。
本稿では,高性能エネルギー効率LSTMネットワークに向けたアルゴリズムとハードウェアの共同設計を提案する。
論文 参考訳(メタデータ) (2022-12-05T05:51:56Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - An Efficient Deep Learning Model for Automatic Modulation Recognition
Based on Parameter Estimation and Transformation [3.3941243094128035]
本稿では,位相パラメータ推定と変換に基づく効率的なDL-AMRモデルを提案する。
我々のモデルは、類似の認識精度を持つベンチマークモデルよりも、トレーニング時間とテスト時間で競争力がある。
論文 参考訳(メタデータ) (2021-10-11T03:28:28Z) - On the Encoder-Decoder Incompatibility in Variational Text Modeling and
Beyond [82.18770740564642]
変分オートエンコーダ(VAE)は、潜時変数と償却変分推論を結合する。
我々は,データ多様体のパラメータ化が不十分なエンコーダ・デコーダの不整合性を観察する。
同一構造を持つ決定論的オートエンコーダとVAEモデルを結合した結合型VAEを提案する。
論文 参考訳(メタデータ) (2020-04-20T10:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。