論文の概要: Stage-wise Dynamics of Classifier-Free Guidance in Diffusion Models
- arxiv url: http://arxiv.org/abs/2509.22007v1
- Date: Fri, 26 Sep 2025 07:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.273977
- Title: Stage-wise Dynamics of Classifier-Free Guidance in Diffusion Models
- Title(参考訳): 拡散モデルにおけるクラシファイアフリーガイダンスの段階的ダイナミクス
- Authors: Cheng Jin, Qitan Shi, Yuantao Gu,
- Abstract要約: CFGは拡散モデルにおける条件の忠実度向上に広く用いられているが、サンプリング力学への影響はよく分かっていない。
CFGをマルチモーダル条件下で解析し,サンプリングプロセスが3段階に展開することを示す。
実験はこれらの予測を支持し、早期の強いガイダンスが世界的な多様性を損なう一方で、後期の強いガイダンスはきめ細かい変化を抑制することを示した。
- 参考スコア(独自算出の注目度): 13.030934039187171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifier-Free Guidance (CFG) is widely used to improve conditional fidelity in diffusion models, but its impact on sampling dynamics remains poorly understood. Prior studies, often restricted to unimodal conditional distributions or simplified cases, provide only a partial picture. We analyze CFG under multimodal conditionals and show that the sampling process unfolds in three successive stages. In the Direction Shift stage, guidance accelerates movement toward the weighted mean, introducing initialization bias and norm growth. In the Mode Separation stage, local dynamics remain largely neutral, but the inherited bias suppresses weaker modes, reducing global diversity. In the Concentration stage, guidance amplifies within-mode contraction, diminishing fine-grained variability. This unified view explains a widely observed phenomenon: stronger guidance improves semantic alignment but inevitably reduces diversity. Experiments support these predictions, showing that early strong guidance erodes global diversity, while late strong guidance suppresses fine-grained variation. Moreover, our theory naturally suggests a time-varying guidance schedule, and empirical results confirm that it consistently improves both quality and diversity.
- Abstract(参考訳): 拡散モデルにおける条件の忠実度向上には, 分類自由誘導(CFG)が広く用いられているが, サンプリング力学への影響はよく分かっていない。
先行研究は、しばしば単調な条件分布や単純化されたケースに制限され、部分的な図のみを提供する。
CFGをマルチモーダル条件下で解析し,サンプリングプロセスが3段階に展開することを示す。
Direction Shiftの段階では、ガイダンスは初期化バイアスと標準成長を導入し、重み付け平均への移動を加速する。
モード分離の段階では、局所力学はほとんど中立であるが、遺伝バイアスはより弱いモードを抑圧し、グローバルな多様性を低下させる。
濃縮段階では、誘導はモード内収縮を増幅し、きめ細かい変動を減少させる。
より強力なガイダンスは意味的アライメントを改善するが、必然的に多様性を低下させる。
実験はこれらの予測を支持し、早期の強いガイダンスが世界的な多様性を損なう一方で、後期の強いガイダンスはきめ細かい変化を抑制することを示した。
さらに,本理論は経時的指導スケジュールを自然に示唆し,実験結果から品質と多様性の両面を一貫して改善することが確認された。
関連論文リスト
- Navigating the Exploration-Exploitation Tradeoff in Inference-Time Scaling of Diffusion Models [11.813933389519358]
推論時間スケーリングは言語モデルにおいて顕著に成功したが、拡散モデルへの適応は未解明のままである。
スケジュールと適応温度の2つの戦略を提案する。
提案手法は, 騒音評価の総数を増やすことなく, 試料品質を著しく向上させる。
論文 参考訳(メタデータ) (2025-08-17T13:35:38Z) - Theory-Informed Improvements to Classifier-Free Guidance for Discrete Diffusion Models [24.186262549509102]
本稿では,CFGをマスク付き離散拡散の文脈で理論的に解析する。
サンプリング(入力が重くマスクされている場合)の早期ガイダンスは生成品質を損なうが、後期ガイダンスは大きな効果がある。
提案手法は,データ分布と初期(マスキング/ユニフォーム)分布の輸送を円滑に行い,その結果,サンプルの品質が向上した。
論文 参考訳(メタデータ) (2025-07-11T18:48:29Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - Provable Efficiency of Guidance in Diffusion Models for General Data Distribution [7.237817437521988]
拡散モデルは、生成モデリングの強力なフレームワークとして登場した。
ガイダンス技術は、サンプルの品質を高める上で重要な役割を担っている。
既存の研究は、各クラスで条件付けられた分布が等方的ガウス的であるか、余剰条件のある一次元間隔で支持されるケーススタディのみに焦点を当てている。
論文 参考訳(メタデータ) (2025-05-02T16:46:43Z) - Contrastive CFG: Improving CFG in Diffusion Models by Contrasting Positive and Negative Concepts [55.298031232672734]
As-Free Guidance (CFG) は条件拡散モデルサンプリングに有効であることが証明された。
対照的な損失を用いた負のCFG誘導を強化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T03:29:27Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Spontaneous Symmetry Breaking in Generative Diffusion Models [6.4322891559626125]
生成拡散モデルは近年,高次元データ生成の先導的アプローチとして浮上している。
これらのモデルの力学は、生成力学を2つの異なる位相に分割する自発的対称性の破れを示す。
本稿では,より高性能でバイアスの少ない高速サンプリングを実現する可能性を持つ拡散モデルの生成力学を理解するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T09:36:34Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - GANs with Variational Entropy Regularizers: Applications in Mitigating
the Mode-Collapse Issue [95.23775347605923]
深層学習の成功に基づいて、GAN(Generative Adversarial Networks)は、観測されたサンプルから確率分布を学習するための現代的なアプローチを提供する。
GANはしばしば、ジェネレータが入力分布の既存のすべてのモードをキャプチャできないモード崩壊問題に悩まされる。
情報理論のアプローチを採り、生成したサンプルのエントロピーの変動的下限を最大化し、それらの多様性を増大させる。
論文 参考訳(メタデータ) (2020-09-24T19:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。