論文の概要: REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2504.10483v1
- Date: Mon, 14 Apr 2025 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:54:00.895238
- Title: REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers
- Title(参考訳): REPA-E:遅延拡散変換器を用いた終端調整用VAEのアンロック
- Authors: Xingjian Leng, Jaskirat Singh, Yunzhong Hou, Zhenchang Xing, Saining Xie, Liang Zheng,
- Abstract要約: 従来のディープラーニングの知恵は、エンド・ツー・エンドのトレーニングが可能な限り望ましいと判断する。
遅延拡散変換器では,標準拡散損失を用いたVAEと拡散モデルの両方のエンドツーエンドトレーニングが有効でないことが観察された。
拡散損失は非効率であるが,表現アライメント(REPA)の損失によってエンドツーエンドのトレーニングをアンロックできることが示されている。
- 参考スコア(独自算出の注目度): 46.15723059393983
- License:
- Abstract: In this paper we tackle a fundamental question: "Can we train latent diffusion models together with the variational auto-encoder (VAE) tokenizer in an end-to-end manner?" Traditional deep-learning wisdom dictates that end-to-end training is often preferable when possible. However, for latent diffusion transformers, it is observed that end-to-end training both VAE and diffusion-model using standard diffusion-loss is ineffective, even causing a degradation in final performance. We show that while diffusion loss is ineffective, end-to-end training can be unlocked through the representation-alignment (REPA) loss -- allowing both VAE and diffusion model to be jointly tuned during the training process. Despite its simplicity, the proposed training recipe (REPA-E) shows remarkable performance; speeding up diffusion model training by over 17x and 45x over REPA and vanilla training recipes, respectively. Interestingly, we observe that end-to-end tuning with REPA-E also improves the VAE itself; leading to improved latent space structure and downstream generation performance. In terms of final performance, our approach sets a new state-of-the-art; achieving FID of 1.26 and 1.83 with and without classifier-free guidance on ImageNet 256 x 256. Code is available at https://end2end-diffusion.github.io.
- Abstract(参考訳): 本稿では,「変分オートエンコーダ(VAE)トークン化器とともに,潜時拡散モデルをエンドツーエンドで訓練するのか?」という根本的な問題に取り組む。
従来のディープラーニングの知恵は、エンド・ツー・エンドのトレーニングが可能な限り望ましいと判断する。
しかし, 遅延拡散変圧器では, 標準拡散損失を用いたVAEと拡散モデルの両方のエンド・ツー・エンドのトレーニングは効果がなく, 最終性能が低下することさえある。
拡散損失は非効率である一方で、表現アライメント(REPA)損失を通じてエンドツーエンドのトレーニングをアンロックできることを示し、トレーニングプロセス中にVAEと拡散モデルの両方が共同で調整可能である。
その単純さにもかかわらず、提案したトレーニングレシピ(REPA-E)は、それぞれREPAとバニラのトレーニングレシピよりも17倍、45倍の拡散モデルトレーニングを高速化する、顕著なパフォーマンスを示している。
興味深いことに、REPA-Eによるエンドツーエンドチューニングは、VAE自体も改善され、遅延空間構造と下流生成性能が向上する。
最終性能に関しては,ImageNet 256 x 256 で FID を1.26 と 1.83 で達成し,分類者なしの指導を不要とした。
コードはhttps://end2end-diffusion.github.ioで公開されている。
関連論文リスト
- Accelerate High-Quality Diffusion Models with Inner Loop Feedback [50.00066451431194]
内ループフィードバック (ILF) は拡散モデルの推論を高速化する新しい手法である。
ILFは、デノナイジングプロセスの将来の機能を予測するために、軽量モジュールをトレーニングする。
ILFは拡散変換器(DiT)とDiTベースのPixArt-alphaとPixArt-sigmaによるテキスト・ツー・画像生成の両方で高い性能を達成している。
論文 参考訳(メタデータ) (2025-01-22T18:59:58Z) - Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [33.519892081718716]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。
提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。
私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文 参考訳(メタデータ) (2025-01-02T18:59:40Z) - Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow [65.51671121528858]
拡散モデルは、視覚生成を大幅に改善したが、生成ODEを解くという計算集約的な性質のため、生成速度の遅さによって妨げられている。
広く認識されている解である整流流は、ODEパスを直線化することで生成速度を向上させる。
本稿では,より広範な拡散モデルのカテゴリをカバーするために,設計空間と修正の応用範囲を一般化するRectified Diffusionを提案する。
論文 参考訳(メタデータ) (2024-10-09T17:43:38Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - DiffEnc: Variational Diffusion with a Learned Encoder [14.045374947755922]
拡散過程にデータと深度に依存した平均関数を導入し,拡散損失を改良した。
提案するフレームワークであるDiffEncは,CIFAR-10の確率を統計的に有意に向上させる。
論文 参考訳(メタデータ) (2023-10-30T17:54:36Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。