論文の概要: CFG++: Manifold-constrained Classifier Free Guidance for Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.08070v2
- Date: Thu, 12 Sep 2024 04:39:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 21:31:38.097130
- Title: CFG++: Manifold-constrained Classifier Free Guidance for Diffusion Models
- Title(参考訳): CFG++: 拡散モデルのためのマニフォールド制約付き分類器フリーガイダンス
- Authors: Hyungjin Chung, Jeongsol Kim, Geon Yeong Park, Hyelin Nam, Jong Chul Ye,
- Abstract要約: CFG++は、従来のCFG固有のオフマンドの課題に取り組む新しいアプローチである。
より優れたインバージョン・ツー・イメージ生成、可逆性、ガイダンススケールの縮小、モード崩壊の削減などを提供する。
高次拡散解法に容易に統合でき、自然に蒸留拡散モデルに拡張できる。
- 参考スコア(独自算出の注目度): 52.29804282879437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classifier-free guidance (CFG) is a fundamental tool in modern diffusion models for text-guided generation. Although effective, CFG has notable drawbacks. For instance, DDIM with CFG lacks invertibility, complicating image editing; furthermore, high guidance scales, essential for high-quality outputs, frequently result in issues like mode collapse. Contrary to the widespread belief that these are inherent limitations of diffusion models, this paper reveals that the problems actually stem from the off-manifold phenomenon associated with CFG, rather than the diffusion models themselves. More specifically, inspired by the recent advancements of diffusion model-based inverse problem solvers (DIS), we reformulate text-guidance as an inverse problem with a text-conditioned score matching loss and develop CFG++, a novel approach that tackles the off-manifold challenges inherent in traditional CFG. CFG++ features a surprisingly simple fix to CFG, yet it offers significant improvements, including better sample quality for text-to-image generation, invertibility, smaller guidance scales, reduced mode collapse, etc. Furthermore, CFG++ enables seamless interpolation between unconditional and conditional sampling at lower guidance scales, consistently outperforming traditional CFG at all scales. Moreover, CFG++ can be easily integrated into high-order diffusion solvers and naturally extends to distilled diffusion models. Experimental results confirm that our method significantly enhances performance in text-to-image generation, DDIM inversion, editing, and solving inverse problems, suggesting a wide-ranging impact and potential applications in various fields that utilize text guidance. Project Page: https://cfgpp-diffusion.github.io/.
- Abstract(参考訳): クラシファイアフリーガイダンス(CFG)は、テキスト誘導生成のための現代拡散モデルの基本ツールである。
CFGは有効ではあるが、顕著な欠点がある。
例えば、CFGを使ったDDIMは可逆性に欠け、画像編集を複雑にしている。
これらが拡散モデルの本質的な限界であるという広く信じられているのとは対照的に、この論文は拡散モデル自体よりもCFGに付随するオフ・マニフォールド現象に由来することを明らかにしている。
より具体的には、拡散モデルに基づく逆問題解法(DIS)の最近の進歩に触発されて、テキスト条件付きスコアマッチング損失による逆問題としてテキストガイダンスを再構成し、従来のCFG固有のオフマンフォールド問題に対処する新しいアプローチCFG++を開発する。
CFG++は驚くほど単純なCFGの修正を特徴としているが、テキスト・ツー・イメージ生成のサンプル品質の向上、可逆性、ガイダンスの縮小、モード崩壊の削減など、大幅な改善が加えられている。
さらに、CFG++は、低誘導スケールでの無条件サンプリングと条件サンプリングのシームレスな補間を可能にする。
さらにCFG++は高次拡散解法に容易に統合でき、自然に蒸留拡散モデルに拡張できる。
実験結果から,テキスト・ツー・イメージ生成,DDIMのインバージョン,編集,逆問題解決において,本手法が性能を著しく向上させることが確認された。
プロジェクトページ: https://cfgpp-diffusion.github.io/
関連論文リスト
- Contrastive CFG: Improving CFG in Diffusion Models by Contrasting Positive and Negative Concepts [55.298031232672734]
As-Free Guidance (CFG) は条件拡散モデルサンプリングに有効であることが証明された。
対照的な損失を用いた負のCFG誘導を強化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T03:29:27Z) - Adapting Diffusion Models for Improved Prompt Compliance and Controllable Image Synthesis [43.481539150288434]
この作品は新しい家族を紹介します。
因子グラフ拡散モデル(FG-DM)
FG-DMは結合分布をモデル化する。
イメージやコンディショニング変数、例えばセマンティック、スケッチなどです。
因子グラフ分解による 奥行きや正常な地図です
論文 参考訳(メタデータ) (2024-10-29T00:54:00Z) - Rectified Diffusion Guidance for Conditional Generation [62.00207951161297]
CFGの背後にある理論を再検討し、組合せ係数の不適切な構成(すなわち、広く使われている和対1バージョン)が生成分布の期待シフトをもたらすことを厳密に確認する。
本稿では,誘導係数を緩和したReCFGを提案する。
このようにして、修正された係数は観測されたデータをトラバースすることで容易に事前計算でき、サンプリング速度はほとんど影響を受けない。
論文 参考訳(メタデータ) (2024-10-24T13:41:32Z) - Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models [27.640009920058187]
CFG更新ルールを再検討し、この問題に対処するための修正を導入する。
過飽和を伴わない高品質な世代を実現するために並列成分の低重み付けを提案する。
また、この知見に基づいて、CFG更新ルールに対する新しい再スケーリングモーメント手法も導入する。
論文 参考訳(メタデータ) (2024-10-03T12:06:29Z) - Debiasing Text-to-Image Diffusion Models [84.46750441518697]
学習ベースのテキスト・トゥ・イメージ(TTI)モデルは、さまざまなドメインで視覚コンテンツを生成する方法に革命をもたらした。
近年の研究では、現在最先端のTTIシステムに非無視的な社会的バイアスが存在することが示されている。
論文 参考訳(メタデータ) (2024-02-22T14:33:23Z) - Controlling Text-to-Image Diffusion by Orthogonal Finetuning [74.21549380288631]
そこで本研究では,テキストから画像への拡散モデルを下流タスクに適用するための原理的な微調整手法であるorthogonal Finetuning(OFT)を提案する。
既存の方法とは異なり、OFTは単位超球上の対のニューロン関係を特徴付ける超球面エネルギーを確実に保存することができる。
我々のOFTフレームワークは、生成品質と収束速度において既存の手法よりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-06-12T17:59:23Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Breaking Through the Haze: An Advanced Non-Homogeneous Dehazing Method
based on Fast Fourier Convolution and ConvNeXt [14.917290578644424]
ヘイズは通常、低コントラスト、色の変化、構造歪みで劣化した画像につながる。
本稿では、2次元離散ウェーブレット変換(DWT)、高速フーリエ畳み込み(FFC)残差ブロック、事前訓練されたConvNeXtモデルを活用する2つの分岐ネットワークを提案する。
我々のモデルは、グローバルな文脈情報を効果的に探索し、知覚品質の高い画像を生成することができる。
論文 参考訳(メタデータ) (2023-05-08T02:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。