論文の概要: Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.02416v1
- Date: Thu, 03 Oct 2024 12:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 17:54:41.056116
- Title: Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models
- Title(参考訳): 拡散モデルにおける高誘導スケールの過飽和とアーチファクトの除去
- Authors: Seyedmorteza Sadat, Otmar Hilliges, Romann M. Weber,
- Abstract要約: CFG更新ルールを再検討し、この問題に対処するための修正を導入する。
過飽和を伴わない高品質な世代を実現するために並列成分の低重み付けを提案する。
また、この知見に基づいて、CFG更新ルールに対する新しい再スケーリングモーメント手法も導入する。
- 参考スコア(独自算出の注目度): 27.640009920058187
- License:
- Abstract: Classifier-free guidance (CFG) is crucial for improving both generation quality and alignment between the input condition and final output in diffusion models. While a high guidance scale is generally required to enhance these aspects, it also causes oversaturation and unrealistic artifacts. In this paper, we revisit the CFG update rule and introduce modifications to address this issue. We first decompose the update term in CFG into parallel and orthogonal components with respect to the conditional model prediction and observe that the parallel component primarily causes oversaturation, while the orthogonal component enhances image quality. Accordingly, we propose down-weighting the parallel component to achieve high-quality generations without oversaturation. Additionally, we draw a connection between CFG and gradient ascent and introduce a new rescaling and momentum method for the CFG update rule based on this insight. Our approach, termed adaptive projected guidance (APG), retains the quality-boosting advantages of CFG while enabling the use of higher guidance scales without oversaturation. APG is easy to implement and introduces practically no additional computational overhead to the sampling process. Through extensive experiments, we demonstrate that APG is compatible with various conditional diffusion models and samplers, leading to improved FID, recall, and saturation scores while maintaining precision comparable to CFG, making our method a superior plug-and-play alternative to standard classifier-free guidance.
- Abstract(参考訳): 拡散モデルにおける入力条件と最終的な出力の間に生じる生成品質と整合性を改善するためには,CFGが不可欠である。
一般的にこれらの側面を強化するために高いガイダンススケールが必要であるが、過飽和や非現実的なアーティファクトを引き起こす。
本稿では,CFG更新規則を再検討し,この問題に対処するための修正を導入する。
まず、CFGの更新項を条件付きモデル予測に関して並列成分と直交成分に分解し、並列成分が主に過飽和を引き起こすのに対して、直交成分は画質を高めることを観察する。
そこで我々は,過飽和のない高品質な世代を実現するために並列成分の低重み付けを提案する。
さらに,CFGと勾配上昇の関係を描き,この知見に基づいて新たな再スケーリングと運動量法を導入する。
アダプティブ・プロジェクテッド・ガイダンス(APG)と呼ばれる我々のアプローチは、CFGの品質向上の利点を保ちながら、過飽和を伴わずにより高いガイダンススケールを使用できる。
APGは実装が容易で、サンプリングプロセスに計算オーバーヘッドが全くない。
広範にわたる実験により,APGは様々な条件拡散モデルやサンプル装置と互換性があり,FID,リコール,飽和度が向上し,CFGに匹敵する精度を維持した。
関連論文リスト
- No Training, No Problem: Rethinking Classifier-Free Guidance for Diffusion Models [25.301443993960277]
我々はCFGの中核となる原則を再考し、新しい方法である独立条件ガイダンス(ICG)を導入する。
ICGは特別な訓練手順を必要とせずにCFGの利点を提供する。
提案手法は条件拡散モデルの学習過程を合理化し,任意の事前学習条件モデル上での推論にも適用可能である。
論文 参考訳(メタデータ) (2024-07-02T22:04:00Z) - CFG++: Manifold-constrained Classifier Free Guidance for Diffusion Models [52.29804282879437]
CFG++は、従来のCFG固有のオフマンドの課題に取り組む新しいアプローチである。
より優れたインバージョン・ツー・イメージ生成、可逆性、ガイダンススケールの縮小、モード崩壊の削減などを提供する。
高次拡散解法に容易に統合でき、自然に蒸留拡散モデルに拡張できる。
論文 参考訳(メタデータ) (2024-06-12T10:40:10Z) - Curvature-Informed SGD via General Purpose Lie-Group Preconditioners [6.760212042305871]
曲率情報を利用して勾配降下(SGD)を加速する新しい手法を提案する。
提案手法は,行列フリープレコンディショナーと低ランクプレコンディショナーの2つのプレコンディショナーを含む。
プレコンディショニングされたSGD(PSGD)は、ビジョン、NLP、RLタスクにおいてSoTAよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-07T03:18:00Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Adaptive Guidance: Training-free Acceleration of Conditional Diffusion
Models [44.58960475893552]
適応誘導 (AG) は計算自由誘導 (CFG) の効率的な変種である
AGはCFGの画質を25%低下させながら保存する。
LinearAG" はベースラインモデルから逸脱するコストでさらに安価な推論を提供する。
論文 参考訳(メタデータ) (2023-12-19T17:08:48Z) - Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models [75.9543301303586]
CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。
微調整やアンサンブルも一般的に下流のタスクに合うように採用されている。
しかし、先行研究は基礎モデルに固有のバイアスを見落としていると論じる。
論文 参考訳(メタデータ) (2023-10-12T08:01:11Z) - Stay on topic with Classifier-Free Guidance [57.28934343207042]
CFGは純粋言語モデリングにおける推論時手法として広く利用できることを示す。
CFG は Pythia, GPT-2 および LLaMA ファミリーモデルの性能をタスクの配列にわたって改善することを示す。
論文 参考訳(メタデータ) (2023-06-30T17:07:02Z) - End-to-End Diffusion Latent Optimization Improves Classifier Guidance [81.27364542975235]
拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。
拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。
計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
論文 参考訳(メタデータ) (2023-03-23T22:43:52Z) - Graph Federated Learning for CIoT Devices in Smart Home Applications [23.216140264163535]
G-Fedfilt'と呼ばれるグラフフィルタリングに基づく新しいグラフ信号処理(GSP)に基づく集約ルールを提案する。
提案するアグリゲータは,グラフのトポロジに基づく情報の流れを構造化することができる。
モデルの一般化をテストする場合、FedAvgよりも2.41%$高い精度が得られる。
論文 参考訳(メタデータ) (2022-12-29T17:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。