論文の概要: Representation Entanglement for Generation:Training Diffusion Transformers Is Much Easier Than You Think
- arxiv url: http://arxiv.org/abs/2507.01467v1
- Date: Wed, 02 Jul 2025 08:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.100572
- Title: Representation Entanglement for Generation:Training Diffusion Transformers Is Much Easier Than You Think
- Title(参考訳): 生成のための表現の絡み合い:拡散変換器の訓練は想像よりずっと簡単
- Authors: Ge Wu, Shen Zhang, Ruijing Shi, Shanghua Gao, Zhenyuan Chen, Lei Wang, Zhaowei Chen, Hongcheng Gao, Yao Tang, Jian Yang, Ming-Ming Cheng, Xiang Li,
- Abstract要約: REPAとその変種は、事前訓練されたモデルから外部の視覚表現を取り入れることで、拡散モデルのトレーニング課題を効果的に軽減する。
偏見推論過程全体において欠落している外部アライメントは、識別的表現の可能性を完全に活用するに足らないと我々は主張する。
本稿では,事前学習した基礎モデルから,低レベル画像ラテントを1つの高レベルクラストークンで絡み合わせるRepresentation Entanglement for Generation (REG)を提案する。
- 参考スコア(独自算出の注目度): 56.539823627694304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: REPA and its variants effectively mitigate training challenges in diffusion models by incorporating external visual representations from pretrained models, through alignment between the noisy hidden projections of denoising networks and foundational clean image representations. We argue that the external alignment, which is absent during the entire denoising inference process, falls short of fully harnessing the potential of discriminative representations. In this work, we propose a straightforward method called Representation Entanglement for Generation (REG), which entangles low-level image latents with a single high-level class token from pretrained foundation models for denoising. REG acquires the capability to produce coherent image-class pairs directly from pure noise, substantially improving both generation quality and training efficiency. This is accomplished with negligible additional inference overhead, requiring only one single additional token for denoising (<0.5\% increase in FLOPs and latency). The inference process concurrently reconstructs both image latents and their corresponding global semantics, where the acquired semantic knowledge actively guides and enhances the image generation process. On ImageNet 256$\times$256, SiT-XL/2 + REG demonstrates remarkable convergence acceleration, achieving $\textbf{63}\times$ and $\textbf{23}\times$ faster training than SiT-XL/2 and SiT-XL/2 + REPA, respectively. More impressively, SiT-L/2 + REG trained for merely 400K iterations outperforms SiT-XL/2 + REPA trained for 4M iterations ($\textbf{10}\times$ longer). Code is available at: https://github.com/Martinser/REG.
- Abstract(参考訳): REPAとその変種は、ノイズの多い隠蔽プロジェクションと基礎的なクリーンな画像表現とのアライメントを通じて、事前訓練されたモデルからの外部視覚表現を組み込むことで、拡散モデルのトレーニング課題を効果的に軽減する。
偏見推論プロセス全体において欠落している外部アライメントは、識別的表現の可能性を完全に活用するに足らないと我々は主張する。
本研究では,事前学習した基礎モデルから,低レベル画像ラテントを1つの高レベルクラストークンで絡み合わせるRepresentation Entanglement for Generation (REG) という簡単な手法を提案する。
REGは、純雑音から直接コヒーレントなイメージクラスペアを生成する能力を取得し、生成品質とトレーニング効率の両方を大幅に改善する。
これは無視可能な追加の推論オーバーヘッドで実現され、denoisingには1つの追加トークン(FLOPとレイテンシの (<0.5\%)が必要になります。
推論プロセスは、取得したセマンティック知識が画像生成プロセスを積極的にガイドし、強化する、画像潜在者とその対応するグローバルセマンティクスの両方を同時に再構築する。
ImageNet 256$\times$256では、SiT-XL/2 + REGが顕著な収束加速を示し、SiT-XL/2とSiT-XL/2 + REPAよりも高速なトレーニングで$\textbf{63}\times$と$\textbf{23}\times$を達成する。
より印象的なことに、SiT-L/2 + REGは400Kイテレーションでトレーニングされ、SiT-XL/2 + REPAは4Mイテレーションでトレーニングされた(\textbf{10}\times$long)。
コードは、https://github.com/Martinser/REG.comで入手できる。
関連論文リスト
- Towards Better Alignment: Training Diffusion Models with Reinforcement Learning Against Sparse Rewards [52.90573877727541]
拡散モデル微調整では強化学習(RL)が検討されている。
RLの有効性はスパース報酬の挑戦によって制限される。
$textB2text-DiffuRL$は既存の最適化アルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2025-03-14T09:45:19Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - You Only Sample Once: Taming One-Step Text-to-Image Synthesis by Self-Cooperative Diffusion GANs [13.133574069588896]
YOSOは、高速でスケーラブルで高忠実なワンステップ画像合成のための新しい生成モデルであり、高いトレーニング安定性とモードカバレッジを持つ。
提案手法は,一段階のモデルトレーニングをスクラッチから行うことができ,競争性能が向上することを示す。
特に、YOSO-PixArt-$alpha$は、512の解像度でトレーニングされた1ステップで画像を生成することができる。
論文 参考訳(メタデータ) (2024-03-19T17:34:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。