論文の概要: VAE-REPA: Variational Autoencoder Representation Alignment for Efficient Diffusion Training
- arxiv url: http://arxiv.org/abs/2601.17830v1
- Date: Sun, 25 Jan 2026 13:22:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.424276
- Title: VAE-REPA: Variational Autoencoder Representation Alignment for Efficient Diffusion Training
- Title(参考訳): VAE-REPA:効率的な拡散訓練のための変分オートエンコーダのアライメント
- Authors: Mengmeng Wang, Dengyang Jiang, Liuzhuozheng Li, Yucheng Lin, Guojiang Shen, Xiangjie Kong, Yong Liu, Guang Dai, Jingdong Wang,
- Abstract要約: 本稿では,効率的な拡散訓練のための軽量な固有ガイダンスフレームワークである textbfnamex を提案する。
nameは、拡散トランスフォーマーの中間潜時特徴を、軽量なプロジェクション層を介してVAE特徴と整列し、特徴アライメントロスによって教師される。
実験により、バニラ拡散変圧器と比較して、名称が生成品質とトレーニング収束速度の両方を改善することが示された。
- 参考スコア(独自算出の注目度): 53.09658039757408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Denoising-based diffusion transformers, despite their strong generation performance, suffer from inefficient training convergence. Existing methods addressing this issue, such as REPA (relying on external representation encoders) or SRA (requiring dual-model setups), inevitably incur heavy computational overhead during training due to external dependencies. To tackle these challenges, this paper proposes \textbf{\namex}, a lightweight intrinsic guidance framework for efficient diffusion training. \name leverages off-the-shelf pre-trained Variational Autoencoder (VAE) features: their reconstruction property ensures inherent encoding of visual priors like rich texture details, structural patterns, and basic semantic information. Specifically, \name aligns the intermediate latent features of diffusion transformers with VAE features via a lightweight projection layer, supervised by a feature alignment loss. This design accelerates training without extra representation encoders or dual-model maintenance, resulting in a simple yet effective pipeline. Extensive experiments demonstrate that \name improves both generation quality and training convergence speed compared to vanilla diffusion transformers, matches or outperforms state-of-the-art acceleration methods, and incurs merely 4\% extra GFLOPs with zero additional cost for external guidance models.
- Abstract(参考訳): デノジングベース拡散変圧器は、その強力な世代性能にもかかわらず、非効率な訓練収束に悩まされている。
REPA(外部表現エンコーダ)やSRA(デュアルモデルセットアップの要求)といった既存の手法は、外部依存によるトレーニング中に必然的に重い計算オーバーヘッドを発生させる。
これらの課題に対処するために、効率的な拡散訓練のための軽量な本質的なガイダンスフレームワークである‘textbf{\namex} を提案する。
それらの再構成特性は、リッチテクスチャの詳細、構造パターン、基本的な意味情報といった視覚的先行情報の固有のエンコーディングを保証する。
具体的には,拡散変圧器の中間潜時特徴とVAE特徴とを軽量な射影層を介して整列し,特徴アライメント損失を監督する。
この設計は、余分な表現エンコーダやデュアルモデルメンテナンスなしでトレーニングを加速し、シンプルだが効果的なパイプラインを生み出す。
拡張実験により,<name>はバニラ拡散変圧器と比較して生成品質とトレーニング収束速度を向上し,最先端の加速法に適合または性能を向上し,外部誘導モデルに付加的なコストを伴わずに4\%余分なGFLOPを発生させることが実証された。
関連論文リスト
- Beyond External Guidance: Unleashing the Semantic Richness Inside Diffusion Transformers for Improved Training [22.94826927321741]
最近の研究は、外部意味を持つ拡散モデルが拡散変圧器(DiT)の訓練を著しく加速することを示した。
本稿では,内部特徴監督のみを用いて高速収束を実現する手法であるbfSelf-Transcendenceを提案する。
論文 参考訳(メタデータ) (2026-01-12T17:52:11Z) - ScaleDiff: Higher-Resolution Image Synthesis via Efficient and Model-Agnostic Diffusion [7.233066974580282]
テキストと画像の拡散モデルは、トレーニングの解像度を超える画像を生成する際に、しばしば劣化した性能を示す。
最近のトレーニングフリーな手法は、この制限を緩和することができるが、かなりの計算を必要とする場合や、最近の拡散変換器モデルと互換性がない場合が多い。
本研究では,事前学習した拡散モデルの解法を,追加の訓練なしに拡張するためのモデル非依存かつ高効率なフレームワークであるScaleDiffを提案する。
論文 参考訳(メタデータ) (2025-10-29T17:17:32Z) - No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves [59.79343544931784]
自己表現アライメント(Self-Representation Alignment, SRA)は, 自己蒸留法により表現指導を得る単純な方法である。
実験結果から,SRAをDiTsおよびSiTsに適用すると一貫した性能向上が得られた。
論文 参考訳(メタデータ) (2025-05-05T17:58:05Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。