論文の概要: RAAG: Ratio Aware Adaptive Guidance
- arxiv url: http://arxiv.org/abs/2508.03442v1
- Date: Tue, 05 Aug 2025 13:41:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.985328
- Title: RAAG: Ratio Aware Adaptive Guidance
- Title(参考訳): RAAG:Ratio Aware Adaptive Guidance
- Authors: Shangwen Zhu, Qianyu Peng, Yuting Hu, Zhantao Yang, Han Zhang, Zhao Pu, Ruili Feng, Fan Cheng,
- Abstract要約: 非条件予測に対する相対的強度(RATIO)の急激な上昇により,初期の逆ステップは誘導尺度に非常に敏感であることが示唆された。
進化するRATIOに基づいて,誘導尺度を早期段階において自動的に減衰させる,シンプルな,理論的に基礎付けられた適応型ガイダンススケジュールを提案する。
我々のアプローチは、生成品質、堅牢性、セマンティックアライメントを維持したり改善したりしながら、最大3倍のサンプリングを可能にします。
- 参考スコア(独自算出の注目度): 7.2455669888408085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flow-based generative models have recently achieved remarkable progress in image and video synthesis, with classifier-free guidance (CFG) becoming the standard tool for high-fidelity, controllable generation. However, despite their practical success, little is known about how guidance interacts with different stages of the sampling process-especially in the fast, low-step regimes typical of modern flow-based pipelines. In this work, we uncover and analyze a fundamental instability: the earliest reverse steps are acutely sensitive to the guidance scale, owing to a pronounced spike in the relative strength (RATIO) of conditional to unconditional predictions. Through rigorous theoretical analysis and empirical validation, we show that this RATIO spike is intrinsic to the data distribution, independent of the model architecture, and causes exponential error amplification when paired with strong guidance. To address this, we propose a simple, theoretically grounded, RATIO-aware adaptive guidance schedule that automatically dampens the guidance scale at early steps based on the evolving RATIO, using a closed-form exponential decay. Our method is lightweight, requires no additional inference overhead, and is compatible with standard flow frameworks. Experiments across state-of-the-art image (SD3.5, Lumina) and video (WAN2.1) models demonstrate that our approach enables up to 3x faster sampling while maintaining or improving generation quality, robustness, and semantic alignment. Extensive ablation studies further confirm the generality and stability of our schedule across models, datasets, and hyperparameters. Our findings highlight the critical role of stepwise guidance adaptation in unlocking the full potential of fast flow-based generative models.
- Abstract(参考訳): フローベース生成モデルは近年,画像と映像の合成において顕著な進歩を遂げており,分類器フリーガイダンス(CFG)が高忠実かつ制御可能な生成のための標準ツールとなっている。
しかし、実際の成功にもかかわらず、ガイダンスがサンプリングプロセスの異なる段階とどのように相互作用するかはほとんど分かっていない。
本研究は,非条件予測に対する相対的強度(RATIO)の急激なスパイクにより,最初期の逆ステップは指導尺度に鋭敏に敏感である,という基本的な不安定性を明らかにし,解析する。
厳密な理論的解析と実証的検証を通じて、このRATIOスパイクはデータ分布に固有のものであり、モデルアーキテクチャとは独立しており、強力なガイダンスと組み合わせれば指数的誤差増幅を引き起こすことを示す。
そこで本研究では, 閉形式指数減衰を用いて, 進化するRATIOに基づいて, 早期段階における誘導スケールを自動的に減衰させる, 簡易かつ理論的に基礎付けられた適応誘導スケジュールを提案する。
私たちのメソッドは軽量で、追加の推論オーバーヘッドを必要とせず、標準フローフレームワークと互換性があります。
最先端画像 (SD3.5, Lumina) とビデオ (WAN2.1) を用いた実験により, 提案手法により, 生成品質, 堅牢性, セマンティックアライメントの維持・改善を図りながら, 最大3倍高速サンプリングが可能となった。
大規模なアブレーション研究により、モデル、データセット、ハイパーパラメータ間のスケジュールの一般化と安定性がさらに確認される。
本研究は,高速なフローベース生成モデルの全可能性を解き明かす上で,段階的指導適応が重要な役割を担っていることを明らかにする。
関連論文リスト
- How Much To Guide: Revisiting Adaptive Guidance in Classifier-Free Guidance Text-to-Vision Diffusion Models [57.42800112251644]
我々は、シンプルで普遍的な適応型ガイダンス戦略であるStep AGを提案する。
評価は画像品質と画像テキストアライメントの両方に焦点をあてる。
論文 参考訳(メタデータ) (2025-06-10T02:09:48Z) - Feedback Guidance of Diffusion Models [0.0]
Interval-Free Guidance (CFG) は, 条件付き拡散モデルにおける試料の忠実度向上の標準となっている。
本稿では,FBG(FeedBack Guidance)を提案する。
論文 参考訳(メタデータ) (2025-06-06T13:46:32Z) - Solving Inverse Problems with FLAIR [59.02385492199431]
フローベースの潜在生成モデルは、驚くべき品質の画像を生成でき、テキスト・ツー・イメージ生成も可能である。
本稿では,フローベース生成モデルを逆問題の前兆として活用する新しい学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Stochastic Control for Fine-tuning Diffusion Models: Optimality, Regularity, and Convergence [11.400431211239958]
拡散モデルは生成モデリングの強力なツールとして登場してきた。
微調整拡散モデルのための制御フレームワークを提案する。
PI-FTは線形速度で大域収束することを示す。
論文 参考訳(メタデータ) (2024-12-24T04:55:46Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Soft ascent-descent as a stable and flexible alternative to flooding [6.527016551650139]
我々は,軟化・ポイントワイド機構であるSoftADを提案する。この機構は,降水量と降水量の影響を制限し,洪水の上昇・昇華効果を維持できる。
我々は,より小さな損失一般化ギャップとモデル規範を享受しながら,浸水と競合する分類精度をSoftADが実現できることを実証する。
論文 参考訳(メタデータ) (2023-10-16T02:02:56Z) - Benchmarking Autoregressive Conditional Diffusion Models for Turbulent Flow Simulation [26.520247496906492]
本研究では,条件付き拡散モデルに基づく自動回帰ロールアウトを利用した完全データ駆動型流体解法が,この問題に対処するための有効な選択肢であるかどうかを解析する。
各種流速予測手法の性能を定量的に定性的に評価するために, 非圧縮性および超音速流を含む3つの難解な2次元シナリオと等方性乱流を用いる。
単純な拡散に基づくアプローチであっても、トレーニング時のアンロールのような最先端の安定化技術と同等でありながら、精度と時間的安定性の観点から、複数の確立したフロー予測手法より優れていることが判明した。
論文 参考訳(メタデータ) (2023-09-04T18:01:42Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Fast and Three-rious: Speeding Up Weak Supervision with Triplet Methods [24.190587751595455]
弱監督は、基底的真理アノテーションに頼ることなく機械学習モデルを構築する一般的な方法である。
既存の手法では、雑音源をモデル化するために潜時変数推定を用いる。
弱監督に高度に適用可能な潜在変数モデルのクラスについて、モデルパラメータに対する閉形式解を見つけることができることを示す。
この洞察を使ってFlyingSquidを構築します。FlyingSquidは、以前の弱い監視アプローチよりも桁違いに高速に実行される弱い監視フレームワークです。
論文 参考訳(メタデータ) (2020-02-27T07:51:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。