論文の概要: Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.02416v1
- Date: Thu, 3 Oct 2024 12:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 03:20:51.414795
- Title: Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models
- Title(参考訳): 拡散モデルにおける高誘導スケールの過飽和とアーチファクトの除去
- Authors: Seyedmorteza Sadat, Otmar Hilliges, Romann M. Weber,
- Abstract要約: CFG更新ルールを再検討し、この問題に対処するための修正を導入する。
過飽和を伴わない高品質な世代を実現するために並列成分の低重み付けを提案する。
また、この知見に基づいて、CFG更新ルールに対する新しい再スケーリングモーメント手法も導入する。
- 参考スコア(独自算出の注目度): 27.640009920058187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifier-free guidance (CFG) is crucial for improving both generation quality and alignment between the input condition and final output in diffusion models. While a high guidance scale is generally required to enhance these aspects, it also causes oversaturation and unrealistic artifacts. In this paper, we revisit the CFG update rule and introduce modifications to address this issue. We first decompose the update term in CFG into parallel and orthogonal components with respect to the conditional model prediction and observe that the parallel component primarily causes oversaturation, while the orthogonal component enhances image quality. Accordingly, we propose down-weighting the parallel component to achieve high-quality generations without oversaturation. Additionally, we draw a connection between CFG and gradient ascent and introduce a new rescaling and momentum method for the CFG update rule based on this insight. Our approach, termed adaptive projected guidance (APG), retains the quality-boosting advantages of CFG while enabling the use of higher guidance scales without oversaturation. APG is easy to implement and introduces practically no additional computational overhead to the sampling process. Through extensive experiments, we demonstrate that APG is compatible with various conditional diffusion models and samplers, leading to improved FID, recall, and saturation scores while maintaining precision comparable to CFG, making our method a superior plug-and-play alternative to standard classifier-free guidance.
- Abstract(参考訳): 拡散モデルにおける入力条件と最終的な出力の間に生じる生成品質と整合性を改善するためには,CFGが不可欠である。
一般的にこれらの側面を強化するために高いガイダンススケールが必要であるが、過飽和や非現実的なアーティファクトを引き起こす。
本稿では,CFG更新規則を再検討し,この問題に対処するための修正を導入する。
まず、CFGの更新項を条件付きモデル予測に関して並列成分と直交成分に分解し、並列成分が主に過飽和を引き起こすのに対して、直交成分は画質を高めることを観察する。
そこで我々は,過飽和のない高品質な世代を実現するために並列成分の低重み付けを提案する。
さらに,CFGと勾配上昇の関係を描き,この知見に基づいて新たな再スケーリングと運動量法を導入する。
アダプティブ・プロジェクテッド・ガイダンス(APG)と呼ばれる我々のアプローチは、CFGの品質向上の利点を保ちながら、過飽和を伴わずにより高いガイダンススケールを使用できる。
APGは実装が容易で、サンプリングプロセスに計算オーバーヘッドが全くない。
広範にわたる実験により,APGは様々な条件拡散モデルやサンプル装置と互換性があり,FID,リコール,飽和度が向上し,CFGに匹敵する精度を維持した。
関連論文リスト
- Contrastive CFG: Improving CFG in Diffusion Models by Contrasting Positive and Negative Concepts [55.298031232672734]
As-Free Guidance (CFG) は条件拡散モデルサンプリングに有効であることが証明された。
対照的な損失を用いた負のCFG誘導を強化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T03:29:27Z) - Rectified Diffusion Guidance for Conditional Generation [62.00207951161297]
CFGの背後にある理論を再検討し、組合せ係数の不適切な構成(すなわち、広く使われている和対1バージョン)が生成分布の期待シフトをもたらすことを厳密に確認する。
本稿では,誘導係数を緩和したReCFGを提案する。
このようにして、修正された係数は観測されたデータをトラバースすることで容易に事前計算でき、サンプリング速度はほとんど影響を受けない。
論文 参考訳(メタデータ) (2024-10-24T13:41:32Z) - PACE: marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。
PACEは、拡張一般化のための勾配を暗黙的に正規化するだけでなく、微調整および事前訓練されたモデルも暗黙的に整列して知識を保持することを示す。
PACEは、VTAB-1k、FGVC、少数ショット学習、ドメイン適応の4つの視覚適応タスクにおいて、既存のPEFTメソッドよりも優れている。
論文 参考訳(メタデータ) (2024-09-25T17:56:00Z) - No Training, No Problem: Rethinking Classifier-Free Guidance for Diffusion Models [25.301443993960277]
我々はCFGの中核となる原則を再考し、新しい方法である独立条件ガイダンス(ICG)を導入する。
ICGは特別な訓練手順を必要とせずにCFGの利点を提供する。
提案手法は条件拡散モデルの学習過程を合理化し,任意の事前学習条件モデル上での推論にも適用可能である。
論文 参考訳(メタデータ) (2024-07-02T22:04:00Z) - CFG++: Manifold-constrained Classifier Free Guidance for Diffusion Models [52.29804282879437]
CFG++は、従来のCFG固有のオフマンドの課題に取り組む新しいアプローチである。
より優れたインバージョン・ツー・イメージ生成、可逆性、ガイダンススケールの縮小、モード崩壊の削減などを提供する。
高次拡散解法に容易に統合でき、自然に蒸留拡散モデルに拡張できる。
論文 参考訳(メタデータ) (2024-06-12T10:40:10Z) - Adaptive Guidance: Training-free Acceleration of Conditional Diffusion
Models [44.58960475893552]
適応誘導 (AG) は計算自由誘導 (CFG) の効率的な変種である
AGはCFGの画質を25%低下させながら保存する。
LinearAG" はベースラインモデルから逸脱するコストでさらに安価な推論を提供する。
論文 参考訳(メタデータ) (2023-12-19T17:08:48Z) - Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models [75.9543301303586]
CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。
微調整やアンサンブルも一般的に下流のタスクに合うように採用されている。
しかし、先行研究は基礎モデルに固有のバイアスを見落としていると論じる。
論文 参考訳(メタデータ) (2023-10-12T08:01:11Z) - End-to-End Diffusion Latent Optimization Improves Classifier Guidance [81.27364542975235]
拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。
拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。
計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
論文 参考訳(メタデータ) (2023-03-23T22:43:52Z) - Graph Federated Learning for CIoT Devices in Smart Home Applications [23.216140264163535]
G-Fedfilt'と呼ばれるグラフフィルタリングに基づく新しいグラフ信号処理(GSP)に基づく集約ルールを提案する。
提案するアグリゲータは,グラフのトポロジに基づく情報の流れを構造化することができる。
モデルの一般化をテストする場合、FedAvgよりも2.41%$高い精度が得られる。
論文 参考訳(メタデータ) (2022-12-29T17:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。