論文の概要: Conditional Diffusion Models with Classifier-Free Gibbs-like Guidance
- arxiv url: http://arxiv.org/abs/2505.21101v1
- Date: Tue, 27 May 2025 12:27:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.63902
- Title: Conditional Diffusion Models with Classifier-Free Gibbs-like Guidance
- Title(参考訳): 類型化自由ギブズ様誘導を用いた条件拡散モデル
- Authors: Badr Moufad, Yazid Janati, Alain Durmus, Ahmed Ghorbel, Eric Moulines, Jimmy Olsson,
- Abstract要約: CFGは条件付きおよび非条件付きデノイザの出力を線形に結合することにより条件付き拡散モデルを改善する手法である。
CFGは視覚的品質を高め、プロンプトとの整合性を向上させるが、しばしばサンプルの多様性を低下させる。
所望の傾斜分布からサンプルを抽出するギブスライクなサンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 19.83064246586143
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Classifier-Free Guidance (CFG) is a widely used technique for improving conditional diffusion models by linearly combining the outputs of conditional and unconditional denoisers. While CFG enhances visual quality and improves alignment with prompts, it often reduces sample diversity, leading to a challenging trade-off between quality and diversity. To address this issue, we make two key contributions. First, CFG generally does not correspond to a well-defined denoising diffusion model (DDM). In particular, contrary to common intuition, CFG does not yield samples from the target distribution associated with the limiting CFG score as the noise level approaches zero -- where the data distribution is tilted by a power $w \gt 1$ of the conditional distribution. We identify the missing component: a R\'enyi divergence term that acts as a repulsive force and is required to correct CFG and render it consistent with a proper DDM. Our analysis shows that this correction term vanishes in the low-noise limit. Second, motivated by this insight, we propose a Gibbs-like sampling procedure to draw samples from the desired tilted distribution. This method starts with an initial sample from the conditional diffusion model without CFG and iteratively refines it, preserving diversity while progressively enhancing sample quality. We evaluate our approach on both image and text-to-audio generation tasks, demonstrating substantial improvements over CFG across all considered metrics. The code is available at https://github.com/yazidjanati/cfgig
- Abstract(参考訳): CFG(Classifier-Free Guidance)は、条件付きおよび非条件付きデノイザの出力を線形に組み合わせて条件付き拡散モデルを改善する手法である。
CFGは視覚的品質を高め、プロンプトとの整合性を向上させるが、しばしばサンプルの多様性を減らし、品質と多様性のトレードオフに挑戦する。
この問題に対処するため、私たちは2つの重要なコントリビューションを行います。
まず、CFGは一般的に、よく定義された偏微分拡散モデル(DDM)に対応しない。
特に、一般的な直観とは対照的に、CFGはノイズレベルが0に近づくと、制限されたCFGスコアに関連する対象分布からサンプルを出力しない。
R'enyi の発散項は反発力として作用し、CFG の補正と適切な DDM との整合性を必要とする。
分析の結果,この補正項は低雑音域で消滅することがわかった。
第二に、この知見を動機として、所望の傾斜分布からサンプルを抽出するギブスライクなサンプリング手法を提案する。
本手法はCFGを使わずに条件拡散モデルから初期試料を抽出し, 反復的に改良し, 多様性を保ちながら, 試料品質を徐々に向上させる。
提案手法は画像・テキスト・オーディオ生成タスクの両面で評価し,検討対象のすべての指標に対してCFGよりも大幅に改善されたことを示す。
コードはhttps://github.com/yazidjanati/cfgigで入手できる。
関連論文リスト
- Few-Step Diffusion via Score identity Distillation [67.07985339442703]
拡散蒸留は, テキスト・ツー・イメージ(T2I)拡散モデルを促進するための有望な戦略として浮上している。
既存の方法は、高分解能T2I拡散モデルを蒸留する際に、実像や教師合成画像に頼っている。
教師のCFGを無効にし、偽スコアネットワークでテキストコンディショニングを除去するZero-CFGと、偽スコアネットワークで否定的なCFGを適用するAnti-CFGの2つの新しいガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2025-05-19T03:45:16Z) - Nested Annealed Training Scheme for Generative Adversarial Networks [54.70743279423088]
本稿では、厳密な数学的理論的枠組みである複合機能段階GAN(CFG)に焦点を当てる。
CFGモデルとスコアベースモデルとの理論的関係を明らかにする。
CFG判別器の学習目的は最適D(x)を求めることと等価であることがわかった。
論文 参考訳(メタデータ) (2025-01-20T07:44:09Z) - Contrastive CFG: Improving CFG in Diffusion Models by Contrasting Positive and Negative Concepts [55.298031232672734]
As-Free Guidance (CFG) は条件拡散モデルサンプリングに有効であることが証明された。
対照的な損失を用いた負のCFG誘導を強化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T03:29:27Z) - Rectified Diffusion Guidance for Conditional Generation [62.00207951161297]
CFGの背後にある理論を再検討し、組合せ係数の不適切な構成(すなわち、広く使われている和対1バージョン)が生成分布の期待シフトをもたらすことを厳密に確認する。
本稿では,誘導係数を緩和したReCFGを提案する。
このようにして、修正された係数は観測されたデータをトラバースすることで容易に事前計算でき、サンプリング速度はほとんど影響を受けない。
論文 参考訳(メタデータ) (2024-10-24T13:41:32Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
一般のスコアミスマッチ拡散サンプリング器に対する明示的な次元依存性を持つ最初の性能保証を示す。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models [27.640009920058187]
CFG更新ルールを再検討し、この問題に対処するための修正を導入する。
過飽和を伴わない高品質な世代を実現するために並列成分の低重み付けを提案する。
また、この知見に基づいて、CFG更新ルールに対する新しい再スケーリングモーメント手法も導入する。
論文 参考訳(メタデータ) (2024-10-03T12:06:29Z) - Classifier-Free Guidance is a Predictor-Corrector [8.970133799609041]
CFGはテキスト・画像拡散モデルにおける条件付きサンプリングの主要な手法である。
我々は、CFGがDDPMやDDIMと異なる相互作用を示すことで、一般的な誤解を解消する。
SDE の極限では、CFG は実際に条件分布の DDIM 予測器とガンマ動力分布のランゲヴィン力学補正器とを結合していることを証明している。
論文 参考訳(メタデータ) (2024-08-16T20:00:55Z) - Adaptive Guidance: Training-free Acceleration of Conditional Diffusion
Models [44.58960475893552]
適応誘導 (AG) は計算自由誘導 (CFG) の効率的な変種である
AGはCFGの画質を25%低下させながら保存する。
LinearAG" はベースラインモデルから逸脱するコストでさらに安価な推論を提供する。
論文 参考訳(メタデータ) (2023-12-19T17:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。