論文の概要: RAAG: Ratio Aware Adaptive Guidance
- arxiv url: http://arxiv.org/abs/2508.03442v2
- Date: Fri, 26 Sep 2025 05:05:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.560577
- Title: RAAG: Ratio Aware Adaptive Guidance
- Title(参考訳): RAAG:Ratio Aware Adaptive Guidance
- Authors: Shangwen Zhu, Qianyu Peng, Yuting Hu, Zhantao Yang, Han Zhang, Zhao Pu, Andy Zheng, Zhilei Shu, Ruili Feng, Fan Cheng,
- Abstract要約: フローベースの生成モデルは驚くべき進歩を遂げた。
推論全体を通じて強力な、固定されたガイダンススケールを適用することは、現代的なアプリケーションに必要な、迅速な、数ステップのサンプリングには適していない。
本稿では,進化率に基づいて早期段階の指導尺度を自動的に減衰させる,シンプルな,理論的に基礎付けられた適応型指導スケジュールを提案する。
- 参考スコア(独自算出の注目度): 9.525432706814675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flow-based generative models have achieved remarkable progress, with classifier-free guidance (CFG) becoming the standard for high-fidelity generation. However, the conventional practice of applying a strong, fixed guidance scale throughout inference is poorly suited for the rapid, few-step sampling required by modern applications. In this work, we uncover the root cause of this conflict: a fundamental sampling instability where the earliest steps are acutely sensitive to guidance. We trace this to a significant spike in the ratio of conditional to unconditional predictions--a spike that we prove to be an inherent property of the training data distribution itself, making it a almost inevitable challenge. Applying a high, static guidance value during this volatile initial phase leads to an exponential amplification of error, degrading image quality. To resolve this, we propose a simple, theoretically grounded, adaptive guidance schedule that automatically dampens the guidance scale at early steps based on the evolving ratio. Our method is lightweight, incurs no inference overhead, and is compatible with standard frameworks. Experiments across state-of-the-art image (SD3.5, Qwen-Image) and video (WAN2.1) models show our approach enables up to 3x faster sampling while maintaining or improving quality, robustness, and semantic alignment. Our findings highlight that adapting guidance to the sampling process, rather than fixing it, is critical for unlocking the full potential of fast, flow-based models.
- Abstract(参考訳): フローベース生成モデルは顕著な進歩を遂げており、分類器フリーガイダンス(CFG)が高忠実度生成の標準となっている。
しかし、推論全体を通して強い固定的な指導尺度を適用するという従来の手法は、現代の応用で必要とされる急激な数段階のサンプリングには適していない。
本研究では,この対立の根本原因を明らかにする。最初の段階が誘導に非常に敏感な,基本的なサンプリング不安定性である。
これは、条件付きと条件なしの予測比率の顕著なスパイクであり、トレーニングデータ分布自体固有の性質であることが証明されたスパイクであり、ほぼ避けられない課題である。
この揮発性初期フェーズで高い静的誘導値を適用すると、エラーの指数的な増幅が起こり、画質が劣化する。
そこで本研究では,進化率に基づいて早期段階の指導尺度を自動的に減衰させる,シンプルで理論的に基礎付けられた適応型指導スケジュールを提案する。
私たちのメソッドは軽量で、推論のオーバーヘッドがなく、標準フレームワークと互換性があります。
最先端画像(SD3.5,Qwen-Image)およびビデオ(WAN2.1)モデルによる実験により、我々のアプローチは、品質、堅牢性、セマンティックアライメントを維持または改善しつつ、最大3倍高速サンプリングを可能にした。
この結果から,高速なフローベースモデルの潜在能力を最大限に活用するためには,サンプリングプロセスへのガイダンスの適用が重要であることが示唆された。
関連論文リスト
- How Much To Guide: Revisiting Adaptive Guidance in Classifier-Free Guidance Text-to-Vision Diffusion Models [57.42800112251644]
我々は、シンプルで普遍的な適応型ガイダンス戦略であるStep AGを提案する。
評価は画像品質と画像テキストアライメントの両方に焦点をあてる。
論文 参考訳(メタデータ) (2025-06-10T02:09:48Z) - Feedback Guidance of Diffusion Models [0.0]
Interval-Free Guidance (CFG) は, 条件付き拡散モデルにおける試料の忠実度向上の標準となっている。
本稿では,FBG(FeedBack Guidance)を提案する。
論文 参考訳(メタデータ) (2025-06-06T13:46:32Z) - Solving Inverse Problems with FLAIR [59.02385492199431]
フローベースの潜在生成モデルは、驚くべき品質の画像を生成でき、テキスト・ツー・イメージ生成も可能である。
本稿では,フローベース生成モデルを逆問題の前兆として活用する新しい学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Stochastic Control for Fine-tuning Diffusion Models: Optimality, Regularity, and Convergence [11.400431211239958]
拡散モデルは生成モデリングの強力なツールとして登場してきた。
微調整拡散モデルのための制御フレームワークを提案する。
PI-FTは線形速度で大域収束することを示す。
論文 参考訳(メタデータ) (2024-12-24T04:55:46Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Soft ascent-descent as a stable and flexible alternative to flooding [6.527016551650139]
我々は,軟化・ポイントワイド機構であるSoftADを提案する。この機構は,降水量と降水量の影響を制限し,洪水の上昇・昇華効果を維持できる。
我々は,より小さな損失一般化ギャップとモデル規範を享受しながら,浸水と競合する分類精度をSoftADが実現できることを実証する。
論文 参考訳(メタデータ) (2023-10-16T02:02:56Z) - Benchmarking Autoregressive Conditional Diffusion Models for Turbulent Flow Simulation [26.520247496906492]
本研究では,条件付き拡散モデルに基づく自動回帰ロールアウトを利用した完全データ駆動型流体解法が,この問題に対処するための有効な選択肢であるかどうかを解析する。
各種流速予測手法の性能を定量的に定性的に評価するために, 非圧縮性および超音速流を含む3つの難解な2次元シナリオと等方性乱流を用いる。
単純な拡散に基づくアプローチであっても、トレーニング時のアンロールのような最先端の安定化技術と同等でありながら、精度と時間的安定性の観点から、複数の確立したフロー予測手法より優れていることが判明した。
論文 参考訳(メタデータ) (2023-09-04T18:01:42Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Fast and Three-rious: Speeding Up Weak Supervision with Triplet Methods [24.190587751595455]
弱監督は、基底的真理アノテーションに頼ることなく機械学習モデルを構築する一般的な方法である。
既存の手法では、雑音源をモデル化するために潜時変数推定を用いる。
弱監督に高度に適用可能な潜在変数モデルのクラスについて、モデルパラメータに対する閉形式解を見つけることができることを示す。
この洞察を使ってFlyingSquidを構築します。FlyingSquidは、以前の弱い監視アプローチよりも桁違いに高速に実行される弱い監視フレームワークです。
論文 参考訳(メタデータ) (2020-02-27T07:51:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。