論文の概要: Beyond External Guidance: Unleashing the Semantic Richness Inside Diffusion Transformers for Improved Training
- arxiv url: http://arxiv.org/abs/2601.07773v1
- Date: Mon, 12 Jan 2026 17:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.712173
- Title: Beyond External Guidance: Unleashing the Semantic Richness Inside Diffusion Transformers for Improved Training
- Title(参考訳): 外部ガイダンスを超えて: トレーニング改善のための拡散変換器内部のセマンティックリッチ化
- Authors: Lingchen Sun, Rongyuan Wu, Zhengqiang Zhang, Ruibin Li, Yujing Sun, Shuaizheng Liu, Lei Zhang,
- Abstract要約: 最近の研究は、外部意味を持つ拡散モデルが拡散変圧器(DiT)の訓練を著しく加速することを示した。
本稿では,内部特徴監督のみを用いて高速収束を実現する手法であるbfSelf-Transcendenceを提案する。
- 参考スコア(独自算出の注目度): 22.94826927321741
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works such as REPA have shown that guiding diffusion models with external semantic features (e.g., DINO) can significantly accelerate the training of diffusion transformers (DiTs). However, this requires the use of pretrained external networks, introducing additional dependencies and reducing flexibility. In this work, we argue that DiTs actually have the power to guide the training of themselves, and propose \textbf{Self-Transcendence}, a simple yet effective method that achieves fast convergence using internal feature supervision only. It is found that the slow convergence in DiT training primarily stems from the difficulty of representation learning in shallow layers. To address this, we initially train the DiT model by aligning its shallow features with the latent representations from the pretrained VAE for a short phase (e.g., 40 epochs), then apply classifier-free guidance to the intermediate features, enhancing their discriminative capability and semantic expressiveness. These enriched internal features, learned entirely within the model, are used as supervision signals to guide a new DiT training. Compared to existing self-contained methods, our approach brings a significant performance boost. It can even surpass REPA in terms of generation quality and convergence speed, but without the need for any external pretrained models. Our method is not only more flexible for different backbones but also has the potential to be adopted for a wider range of diffusion-based generative tasks. The source code of our method can be found at https://github.com/csslc/Self-Transcendence.
- Abstract(参考訳): REPAのような最近の研究は、外部意味を持つ拡散モデル(例えば、DINO)が拡散トランスフォーマー(DiT)のトレーニングを著しく加速することを示した。
しかし、これは事前訓練された外部ネットワークを使用し、追加の依存関係を導入し、柔軟性を低下させる必要がある。
本研究では、実際にDiTは自己の訓練を指導する能力を持っていると論じ、内部特徴監督のみを用いて高速収束を実現するシンプルで効果的な方法である「textbf{Self-Transcendence}」を提案する。
DiTトレーニングの緩やかな収束は主に浅い層での表現学習の難しさに起因している。
この問題を解決するために、我々はまず、短いフェーズ(例えば40 epochs)で事前訓練されたVAEの潜在表現と浅い特徴を一致させて、DiTモデルを訓練し、次に中間特徴に分類子なしガイダンスを適用し、識別能力と意味表現性を向上させる。
モデル内で完全に学習されたこれらの豊富な内部機能は、新しいDiTトレーニングをガイドするための監視信号として使用される。
既存の自己完結型手法と比較して,我々の手法は大幅な性能向上をもたらす。
生成品質と収束速度の点でREPAを超えることもできるが、外部の事前訓練されたモデルを必要としない。
提案手法は, 異なるバックボーンに対して柔軟であるだけでなく, 広範囲の拡散に基づく生成タスクにも適用できる可能性がある。
我々のメソッドのソースコードはhttps://github.com/csslc/Self-Transcendence.comで確認できる。
関連論文リスト
- REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers [52.55041244336767]
従来のディープラーニングの知恵は、エンド・ツー・エンドのトレーニングが可能な限り望ましいと判断する。
遅延拡散変換器では,標準拡散損失を用いたVAEと拡散モデルの両方のエンドツーエンドトレーニングが有効でないことが観察された。
拡散損失は非効率であるが,表現アライメント(REPA)の損失によってエンドツーエンドのトレーニングをアンロックできることが示されている。
論文 参考訳(メタデータ) (2025-04-14T17:59:53Z) - PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity [9.092404060771306]
拡散モデルでは、高品質な条件付きサンプルの生成に顕著な結果が示されている。
しかし、既存の方法は、しばしば追加のトレーニングや神経機能評価(NFE)を必要とする。
本稿では,スパースアテンションを生かして事前学習モデルを強化する,PLADISと呼ばれる新しい,効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-03-10T07:23:19Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。