論文の概要: Guidance in the Frequency Domain Enables High-Fidelity Sampling at Low CFG Scales
- arxiv url: http://arxiv.org/abs/2506.19713v1
- Date: Tue, 24 Jun 2025 15:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.699586
- Title: Guidance in the Frequency Domain Enables High-Fidelity Sampling at Low CFG Scales
- Title(参考訳): 低CFGスケールでの高密度サンプリングを可能にする周波数領域の誘導
- Authors: Seyedmorteza Sadat, Tobias Vontobel, Farnood Salehi, Romann M. Weber,
- Abstract要約: 低周波と高周波は、生成品質に大きな影響を及ぼす。
標準CFGで行われているように、全周波数にわたって均一なスケールを適用すると、ハイスケールでの多様性が過度に減少する。
本稿では、CFGを低飽和・高周波数成分に分解する効果的な手法である周波数分離誘導法(FDG)を提案する。
- 参考スコア(独自算出の注目度): 1.9474278832087901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifier-free guidance (CFG) has become an essential component of modern conditional diffusion models. Although highly effective in practice, the underlying mechanisms by which CFG enhances quality, detail, and prompt alignment are not fully understood. We present a novel perspective on CFG by analyzing its effects in the frequency domain, showing that low and high frequencies have distinct impacts on generation quality. Specifically, low-frequency guidance governs global structure and condition alignment, while high-frequency guidance mainly enhances visual fidelity. However, applying a uniform scale across all frequencies -- as is done in standard CFG -- leads to oversaturation and reduced diversity at high scales and degraded visual quality at low scales. Based on these insights, we propose frequency-decoupled guidance (FDG), an effective approach that decomposes CFG into low- and high-frequency components and applies separate guidance strengths to each component. FDG improves image quality at low guidance scales and avoids the drawbacks of high CFG scales by design. Through extensive experiments across multiple datasets and models, we demonstrate that FDG consistently enhances sample fidelity while preserving diversity, leading to improved FID and recall compared to CFG, establishing our method as a plug-and-play alternative to standard classifier-free guidance.
- Abstract(参考訳): クラシファイアフリーガイダンス (CFG) は現代の条件拡散モデルにおいて重要な要素となっている。
実際には非常に効果的であるが、CFGが品質、詳細、迅速なアライメントを高めるメカニズムは十分に理解されていない。
本稿では、周波数領域におけるCFGの影響を解析し、低周波および高周波が生成品質に異なる影響を及ぼすことを示す。
特に、低周波誘導は、大域的構造と条件整合性を管理し、高周波誘導は、主に視覚的忠実性を高める。
しかし、標準CFGのように全周波数にわたって均一なスケールを適用すると、高スケールでの過飽和と多様性の低下、低スケールでの視覚的品質の低下につながる。
これらの知見に基づいて、CFGを低周波成分と高周波成分に分解し、各成分に異なる誘導強度を付与する効果的な手法である周波数分離誘導(FDG)を提案する。
FDGは低誘導スケールで画質を改善し、高いCFGスケールの欠点を回避する。
複数のデータセットやモデルにわたる広範な実験を通じて、FDGは多様性を保ちながらサンプルの忠実度を一貫して向上し、CFGと比較してFIDとリコールを改善し、標準分類器フリーガイダンスに代わるプラグアンドプレイの方法を確立した。
関連論文リスト
- Diffusion Sampling Path Tells More: An Efficient Plug-and-Play Strategy for Sample Filtering [18.543769006014383]
拡散モデルはしばしば、サンプリング軌跡に固有の変化のために、一貫性のないサンプル品質を示す。
CFG-リジェクション(CFG-Rejection)は,デノナイジングプロセスの初期段階において,低品質なサンプルをフィルタリングする効率的なプラグアンドプレイ戦略である。
画像生成におけるCFG-Rejectionの有効性を広範囲な実験により検証する。
論文 参考訳(メタデータ) (2025-05-29T11:08:24Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Classifier-Free Guidance: From High-Dimensional Analysis to Generalized Guidance Forms [22.44946627454133]
CFGは十分に高次元かつ無限次元のターゲット分布を正確に再現することを示す。
我々は、この性質、特に非線形CFG一般化を享受するガイダンスが多数存在することを示す。
本研究は,最先端拡散モデルとフローマッチングモデルを用いて,クラス条件とテキスト・ツー・イメージ生成の実験により検証した。
論文 参考訳(メタデータ) (2025-02-11T10:29:29Z) - Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models [27.640009920058187]
CFG更新ルールを再検討し、この問題に対処するための修正を導入する。
過飽和を伴わない高品質な世代を実現するために並列成分の低重み付けを提案する。
また、この知見に基づいて、CFG更新ルールに対する新しい再スケーリングモーメント手法も導入する。
論文 参考訳(メタデータ) (2024-10-03T12:06:29Z) - Mitigating Low-Frequency Bias: Feature Recalibration and Frequency Attention Regularization for Adversarial Robustness [23.77988226456179]
敵の訓練(AT)は、有望な防衛戦略として現れている。
ATトレーニングされたモデルは、高周波成分を無視しながら、低周波特徴に対するバイアスを示す。
本稿では,周波数特性を戦略的に分離・再分類する新しいモジュールであるHFDRを提案する。
論文 参考訳(メタデータ) (2024-07-04T15:46:01Z) - High-level Feature Guided Decoding for Semantic Segmentation [54.424062794490254]
そこで本稿では,アップサンプラーが頑健な結果を得るためのガイダンス(HFG)として,強力な事前学習高レベル機能を提案する。
具体的には、バックボーンの高レベルな機能はクラストークンのトレーニングに使用され、クラストークンはクラス分類のためにアップサンプラーによって再利用される。
HFGの上限を押し上げるために、低解像度の高レベル特徴に対して効率よく効果的に操作できる文脈拡張エンコーダ(CAE)を導入する。
論文 参考訳(メタデータ) (2023-03-15T14:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。