論文の概要: REPA Works Until It Doesn't: Early-Stopped, Holistic Alignment Supercharges Diffusion Training
- arxiv url: http://arxiv.org/abs/2505.16792v1
- Date: Thu, 22 May 2025 15:34:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.402679
- Title: REPA Works Until It Doesn't: Early-Stopped, Holistic Alignment Supercharges Diffusion Training
- Title(参考訳): REPAが完成するまで - 早期停止でホロスティックなアライメント・スーパーチャージによる拡散訓練
- Authors: Ziqiao Wang, Wangbo Zhao, Yuhao Zhou, Zekai Li, Zhiyuan Liang, Mingjia Shi, Xuanlei Zhao, Pengfei Zhou, Kaipeng Zhang, Zhangyang Wang, Kai Wang, Yang You,
- Abstract要約: Diffusion Transformer (DiTs)は最先端の画像品質を提供するが、訓練は依然として遅い。
最近の治療 -- DiT の隠された特徴と非生成的教師(例えば DINO)の特徴とを一致させる表現アライメント(REPA) -- は、初期のエポックを劇的に加速させるが、その後パフォーマンスを低下させる。
生成学習者が共同データ分布をモデル化し始めると、教師の低次元埋め込みと注意パターンがガイドではなくストラトジャケットになる。
HASTEを紹介する
- 参考スコア(独自算出の注目度): 58.33728862521732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) deliver state-of-the-art image quality, yet their training remains notoriously slow. A recent remedy -- representation alignment (REPA) that matches DiT hidden features to those of a non-generative teacher (e.g. DINO) -- dramatically accelerates the early epochs but plateaus or even degrades performance later. We trace this failure to a capacity mismatch: once the generative student begins modelling the joint data distribution, the teacher's lower-dimensional embeddings and attention patterns become a straitjacket rather than a guide. We then introduce HASTE (Holistic Alignment with Stage-wise Termination for Efficient training), a two-phase schedule that keeps the help and drops the hindrance. Phase I applies a holistic alignment loss that simultaneously distills attention maps (relational priors) and feature projections (semantic anchors) from the teacher into mid-level layers of the DiT, yielding rapid convergence. Phase II then performs one-shot termination that deactivates the alignment loss, once a simple trigger such as a fixed iteration is hit, freeing the DiT to focus on denoising and exploit its generative capacity. HASTE speeds up training of diverse DiTs without architecture changes. On ImageNet 256X256, it reaches the vanilla SiT-XL/2 baseline FID in 50 epochs and matches REPA's best FID in 500 epochs, amounting to a 28X reduction in optimization steps. HASTE also improves text-to-image DiTs on MS-COCO, demonstrating to be a simple yet principled recipe for efficient diffusion training across various tasks. Our code is available at https://github.com/NUS-HPC-AI-Lab/HASTE .
- Abstract(参考訳): Diffusion Transformer (DiTs)は最先端の画像品質を提供するが、訓練は依然として遅い。
最近の治療 -- DiT の隠された特徴と非生成的教師 (eg DINO) の特徴とを一致させる表現アライメント (REPA) -- は、初期のエポックを劇的に加速させるが、その後パフォーマンスを低下させる。
生成学習者が共同データ分布をモデル化し始めると、教師の低次元埋め込みと注意パターンがガイドではなくストラトジャケットになる。
次に,HASTE(Holistic Alignment with Stage-wise Termination for Efficient Training)という2段階スケジュールを導入する。
第1相は、教師からDiTの中層層への注意マップ(関係先行)と特徴投影(セマンティックアンカー)を同時に蒸留する全体的アライメント損失を適用し、急速に収束する。
その後、フェーズIIはアライメント損失を非活性化するワンショット終了を行い、固定された繰り返しのような単純なトリガーがヒットすると、DiTはその生成能力の分解と利用に集中する。
HASTEはアーキテクチャの変更なしに、多様なDiTのトレーニングを高速化する。
ImageNet 256X256では、50エポックでバニラSiT-XL/2ベースラインFIDに達し、500エポックでREPAの最高のFIDと一致し、最適化ステップの28倍の削減となる。
HASTEはまた、MS-COCO上のテキスト・ツー・イメージのDiTを改善し、様々なタスクにまたがる効率的な拡散訓練のためのシンプルだが原則化されたレシピであることを示した。
私たちのコードはhttps://github.com/NUS-HPC-AI-Lab/HASTEで利用可能です。
関連論文リスト
- Autoregressive Distillation of Diffusion Transformers [18.19070958829772]
本稿では,ODEの歴史的軌道を利用して将来のステップを予測する新しい手法であるAutoRegressive Distillation (ARD)を提案する。
ARDには2つの大きな利点がある: 1) 蓄積されたエラーに弱い予測された履歴軌跡を利用することにより露出バイアスを緩和し、2) ODE軌跡の過去の履歴をより効果的な粗い情報源として活用する。
このモデルでは,ImageNet-256でFLOPを1.1%追加するだけで,ベースライン法に比べてFID劣化の5倍の低減を実現している。
論文 参考訳(メタデータ) (2025-04-15T15:33:49Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - SD-DiT: Unleashing the Power of Self-supervised Discrimination in Diffusion Transformer [102.39050180060913]
拡散変換器(DiT)は画像生成における生成拡散モデルの新たなトレンドとして登場した。
最近のブレークスルーは、画像内文脈学習を追加することで、DiTのトレーニング効率を大幅に改善するマスク戦略によって推進されている。
本研究は,DiTトレーニングを促進するための自己監督的識別知識を新たに開放することで,これらの制約に対処する。
論文 参考訳(メタデータ) (2024-03-25T17:59:35Z) - You Only Sample Once: Taming One-Step Text-to-Image Synthesis by Self-Cooperative Diffusion GANs [13.133574069588896]
YOSOは、高速でスケーラブルで高忠実なワンステップ画像合成のための新しい生成モデルであり、高いトレーニング安定性とモードカバレッジを持つ。
提案手法は,一段階のモデルトレーニングをスクラッチから行うことができ,競争性能が向上することを示す。
特に、YOSO-PixArt-$alpha$は、512の解像度でトレーニングされた1ステップで画像を生成することができる。
論文 参考訳(メタデータ) (2024-03-19T17:34:27Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。