論文の概要: Improved Training Technique for Shortcut Models
- arxiv url: http://arxiv.org/abs/2510.21250v1
- Date: Fri, 24 Oct 2025 08:35:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.413267
- Title: Improved Training Technique for Shortcut Models
- Title(参考訳): ショートカットモデルの訓練方法の改善
- Authors: Anh Nguyen, Viet Nguyen, Duc Vu, Trung Dao, Chi Tran, Toan Tran, Anh Tran,
- Abstract要約: ショートカットモデルは、生成モデリングのための有望で非敵対的なパラダイムである。
ショートカットモデルは、1つのトレーニングされたネットワークから1ステップ、数ステップ、および複数ステップのサンプリングをサポートする。
本稿では,ショートカットモデルを後退させた5つのコア問題に対処する。
- 参考スコア(独自算出の注目度): 12.527716901034694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Shortcut models represent a promising, non-adversarial paradigm for generative modeling, uniquely supporting one-step, few-step, and multi-step sampling from a single trained network. However, their widespread adoption has been stymied by critical performance bottlenecks. This paper tackles the five core issues that held shortcut models back: (1) the hidden flaw of compounding guidance, which we are the first to formalize, causing severe image artifacts; (2) inflexible fixed guidance that restricts inference-time control; (3) a pervasive frequency bias driven by a reliance on low-level distances in the direct domain, which biases reconstructions toward low frequencies; (4) divergent self-consistency arising from a conflict with EMA training; and (5) curvy flow trajectories that impede convergence. To address these challenges, we introduce iSM, a unified training framework that systematically resolves each limitation. Our framework is built on four key improvements: Intrinsic Guidance provides explicit, dynamic control over guidance strength, resolving both compounding guidance and inflexibility. A Multi-Level Wavelet Loss mitigates frequency bias to restore high-frequency details. Scaling Optimal Transport (sOT) reduces training variance and learns straighter, more stable generative paths. Finally, a Twin EMA strategy reconciles training stability with self-consistency. Extensive experiments on ImageNet 256 x 256 demonstrate that our approach yields substantial FID improvements over baseline shortcut models across one-step, few-step, and multi-step generation, making shortcut models a viable and competitive class of generative models.
- Abstract(参考訳): ショートカットモデルは、1つのトレーニングされたネットワークからの1ステップ、数ステップ、および複数ステップのサンプリングをユニークにサポートし、生成モデリングのための有望で非敵対的なパラダイムである。
しかし、彼らの普及は、重要なパフォーマンスボトルネックによって妨げられている。
本論文は,(1)最初に定式化したコンプレックスガイダンスの隠れ欠陥,(2)推論時間制御を制限する非フレキシブルな固定誘導,(3)低周波領域における低レベル距離に依存して誘導される広帯域周波数バイアス,(4)EMAトレーニングとの矛盾から生じる分散自己整合性,(5)収束を阻害する曲がり流れ軌跡の5つの問題に対処する。
これらの課題に対処するために,各制限を体系的に解決する統合トレーニングフレームワークiSMを導入する。
Intrinsic Guidanceは、ガイダンスの強度を明示的で動的に制御し、複雑なガイダンスと柔軟性の両方を解消します。
マルチレベルウェーブレット損失は周波数バイアスを緩和し、高周波の詳細を復元する。
SOT(Scaling Optimal Transport)は、トレーニングのばらつきを低減し、より直線的で安定した生成経路を学ぶ。
最後に、ツインEMA戦略は、訓練安定性を自己整合性と整合させる。
ImageNet 256 x 256の広汎な実験により,提案手法は1ステップ,数ステップ,複数ステップにまたがるベースラインショートカットモデルよりも大幅にFIDが向上し,ショートカットモデルを実用的で競争力のある生成モデルのクラスとすることを示した。
関連論文リスト
- Supercharged One-step Text-to-Image Diffusion Models with Negative Prompts [19.609393551644562]
負のプロンプトを1段階拡散モデルに統合する効率的な方法である textbfNegative-textbfAway textbfSteer textbfAttention (NASA) を導入する。
NASAは、望ましくない視覚特性を抑えるためにクロスアテンション機構を活用することで、中間表現空間内で運用している。
論文 参考訳(メタデータ) (2024-12-03T18:56:32Z) - Stable Consistency Tuning: Understanding and Improving Consistency Models [40.2712218203989]
拡散モデルは、より優れた生成品質を達成するが、復調の反復的な性質により、生成速度が遅くなる。
新しいジェネレーティブファミリーである一貫性モデルは、非常に高速なサンプリングで競争性能を達成する。
本稿では,拡散モデルの分解過程をマルコフ決定過程(MDP)としてモデル化し,時間差分学習(TD)による値推定としてフレーミング一貫性モデルのトレーニングを提案する。
論文 参考訳(メタデータ) (2024-10-24T17:55:52Z) - Diffusing States and Matching Scores: A New Framework for Imitation Learning [16.941612670582522]
敵対的模倣学習は伝統的に、学習者と敵対的に選択されたコスト関数の間の2つのプレイヤーゼロサムゲームとしてフレーム化されている。
拡散モデルは、回帰を通じてスコア関数を訓練することだけを必要とするGANの非敵対的な代替品として登場した。
提案手法は, GANスタイルの模倣学習ベースラインと差別化なし模倣学習ベースラインの両方を, 連続制御問題に比較して優れていることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:25Z) - Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning [0.0]
強化学習(RL)による微調整基礎モデルは、下流の目標に整合する上で有望であることが証明されている。
拡散モデル (DM) の階層的性質を生かし, 各エポックでRL法で動的に訓練する。
HRFで訓練したモデルは、下流タスクにおける多様性の保存性を向上し、微調整の堅牢性を高め、平均報酬を損なうことなく達成できることが示される。
論文 参考訳(メタデータ) (2024-10-10T19:06:23Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Self-Progressing Robust Training [146.8337017922058]
敵対的なトレーニングのような現在の堅牢なトレーニング方法は、敵対的な例を生成するために「攻撃」を明示的に使用します。
我々はSPROUTと呼ばれる自己プログレッシブ・ロバスト・トレーニングのための新しいフレームワークを提案する。
その結果,スケーラブルで効果的で攻撃に依存しないロバストなトレーニング手法に新たな光を当てた。
論文 参考訳(メタデータ) (2020-12-22T00:45:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。