論文の概要: REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2504.10483v1
- Date: Mon, 14 Apr 2025 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-22 17:19:13.450284
- Title: REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers
- Title(参考訳): REPA-E:遅延拡散変換器を用いた終端調整用VAEのアンロック
- Authors: Xingjian Leng, Jaskirat Singh, Yunzhong Hou, Zhenchang Xing, Saining Xie, Liang Zheng,
- Abstract要約: 従来のディープラーニングの知恵は、エンド・ツー・エンドのトレーニングが可能な限り望ましいと判断する。
遅延拡散変換器では,標準拡散損失を用いたVAEと拡散モデルの両方のエンドツーエンドトレーニングが有効でないことが観察された。
拡散損失は非効率であるが,表現アライメント(REPA)の損失によってエンドツーエンドのトレーニングをアンロックできることが示されている。
- 参考スコア(独自算出の注目度): 46.15723059393983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we tackle a fundamental question: "Can we train latent diffusion models together with the variational auto-encoder (VAE) tokenizer in an end-to-end manner?" Traditional deep-learning wisdom dictates that end-to-end training is often preferable when possible. However, for latent diffusion transformers, it is observed that end-to-end training both VAE and diffusion-model using standard diffusion-loss is ineffective, even causing a degradation in final performance. We show that while diffusion loss is ineffective, end-to-end training can be unlocked through the representation-alignment (REPA) loss -- allowing both VAE and diffusion model to be jointly tuned during the training process. Despite its simplicity, the proposed training recipe (REPA-E) shows remarkable performance; speeding up diffusion model training by over 17x and 45x over REPA and vanilla training recipes, respectively. Interestingly, we observe that end-to-end tuning with REPA-E also improves the VAE itself; leading to improved latent space structure and downstream generation performance. In terms of final performance, our approach sets a new state-of-the-art; achieving FID of 1.26 and 1.83 with and without classifier-free guidance on ImageNet 256 x 256. Code is available at https://end2end-diffusion.github.io.
- Abstract(参考訳): 本稿では,「変分オートエンコーダ(VAE)トークン化器とともに,潜時拡散モデルをエンドツーエンドで訓練するのか?」という根本的な問題に取り組む。
従来のディープラーニングの知恵は、エンド・ツー・エンドのトレーニングが可能な限り望ましいと判断する。
しかし, 遅延拡散変圧器では, 標準拡散損失を用いたVAEと拡散モデルの両方のエンド・ツー・エンドのトレーニングは効果がなく, 最終性能が低下することさえある。
拡散損失は非効率である一方で、表現アライメント(REPA)損失を通じてエンドツーエンドのトレーニングをアンロックできることを示し、トレーニングプロセス中にVAEと拡散モデルの両方が共同で調整可能である。
その単純さにもかかわらず、提案したトレーニングレシピ(REPA-E)は、それぞれREPAとバニラのトレーニングレシピよりも17倍、45倍の拡散モデルトレーニングを高速化する、顕著なパフォーマンスを示している。
興味深いことに、REPA-Eによるエンドツーエンドチューニングは、VAE自体も改善され、遅延空間構造と下流生成性能が向上する。
最終性能に関しては,ImageNet 256 x 256 で FID を1.26 と 1.83 で達成し,分類者なしの指導を不要とした。
コードはhttps://end2end-diffusion.github.ioで公開されている。
関連論文リスト
- ADT: Tuning Diffusion Models with Adversarial Supervision [16.974169058917443]
拡散モデルは、真のデータ分布を近似するために前方ノイズ発生過程を反転させることで、優れた画像生成を実現している。
本稿では、最適化中の推論プロセスを刺激し、最終的な出力をトレーニングデータと整合させるために、Adrial Diffusion Tuning (ADT)を提案する。
ADTは、固定されたトレーニング済みのバックボーンと軽量なトレーニング可能なパラメータを備えたシアム-ネットワーク識別器を備えている。
論文 参考訳(メタデータ) (2025-04-15T17:37:50Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - ProReflow: Progressive Reflow with Decomposed Velocity [52.249464542399636]
フローマッチングは、拡散モデルの拡散過程を数ステップまたは1ステップ生成のために直線に再フローすることを目的としている。
局所的な時間ステップで拡散モデルを段階的に再フローし,拡散全体を進行させるプログレッシブ・リフローを導入する。
また,フローマッチングにおける方向整合の重要性を強調し,位置整合性を考慮したV-Predictionを導入する。
論文 参考訳(メタデータ) (2025-03-05T04:50:53Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。