論文の概要: Classifier-free Guidance with Adaptive Scaling
- arxiv url: http://arxiv.org/abs/2502.10574v1
- Date: Fri, 14 Feb 2025 22:04:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 20:34:44.53675
- Title: Classifier-free Guidance with Adaptive Scaling
- Title(参考訳): Adaptive Scalingによる分類自由誘導
- Authors: Dawid Malarz, Artur Kasymov, Maciej Zięba, Jacek Tabor, Przemysław Spurek,
- Abstract要約: フリーガイダンス(CFG)は、テキスト駆動拡散モデルにおいて必須のメカニズムである。
本稿では,世代誘導の影響を制御できる$beta$adaptive-CFGを提案する。
提案モデルでは,テキスト・ツー・イメージのCLIP類似度スコアを,参照CFGと類似したレベルに維持し,FIDスコアが向上した。
- 参考スコア(独自算出の注目度): 7.179513844921256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classifier-free guidance (CFG) is an essential mechanism in contemporary text-driven diffusion models. In practice, in controlling the impact of guidance we can see the trade-off between the quality of the generated images and correspondence to the prompt. When we use strong guidance, generated images fit the conditioned text perfectly but at the cost of their quality. Dually, we can use small guidance to generate high-quality results, but the generated images do not suit our prompt. In this paper, we present $\beta$-CFG ($\beta$-adaptive scaling in Classifier-Free Guidance), which controls the impact of guidance during generation to solve the above trade-off. First, $\beta$-CFG stabilizes the effects of guiding by gradient-based adaptive normalization. Second, $\beta$-CFG uses the family of single-modal ($\beta$-distribution), time-dependent curves to dynamically adapt the trade-off between prompt matching and the quality of samples during the diffusion denoising process. Our model obtained better FID scores, maintaining the text-to-image CLIP similarity scores at a level similar to that of the reference CFG.
- Abstract(参考訳): クラシファイアフリーガイダンス(CFG)は、現代テキスト駆動拡散モデルにおいて必須のメカニズムである。
実際には、ガイダンスの影響を制御する際に、生成された画像の品質とプロンプトへの対応とのトレードオフを見ることができる。
強いガイダンスを使用すると、生成された画像は条件付きテキストに完全に適合するが、品質の犠牲になる。
第二に、我々は小さなガイダンスを使って高品質な結果を生成することができるが、生成した画像は我々のプロンプトに合わない。
本稿では、上記のトレードオフを解決するため、世代間のガイダンスの影響を制御できる$\beta$-CFG(\beta$-adaptive Scaling in Classifier-Free Guidance)を提案する。
まず、$\beta$-CFGは勾配に基づく適応正規化による誘導の効果を安定化させる。
第二に、$\beta$-CFGは単調な(\beta$-distribution)曲線の族を使い、拡散復調過程において、プロンプトマッチングとサンプルの品質の間のトレードオフを動的に適応させる。
提案モデルでは,テキスト・ツー・イメージのCLIP類似度スコアを,参照CFGと類似したレベルに維持し,FIDスコアが向上した。
関連論文リスト
- HiGFA: Hierarchical Guidance for Fine-grained Data Augmentation with Diffusion Models [82.10385962490051]
生成拡散モデルは、データ拡張の約束を示す。
きめ細かいタスクにそれらを適用することは、重大な課題である。
HiGFAは階層的な信頼性駆動型オーケストレーションであり、多様なが忠実な合成画像を生成する。
論文 参考訳(メタデータ) (2025-11-16T10:46:16Z) - Learn to Guide Your Diffusion Model [84.82855046749657]
本研究では,条件付き拡散モデルによる試料の品質向上手法について検討する。
誘導ウェイトは$omega_c,(s,t)$で、条件付き$c$、飾る時間$t$、飾る時間$s$の関数です。
我々は,モデルが報酬関数によって傾いた分布を目標にすることができるように,フレームワークを拡張して報酬付きサンプリングを行う。
論文 参考訳(メタデータ) (2025-10-01T12:21:48Z) - Dynamic Classifier-Free Diffusion Guidance via Online Feedback [53.54876309092376]
ワンサイズオール"アプローチは、異なるプロンプトの多様な要件に適応できない。
動的CFGスケジューリングのためのフレームワークを提案する。
我々は,小型モデルと最先端のImagen 3におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2025-09-19T16:27:19Z) - Steering Guidance for Personalized Text-to-Image Diffusion Models [19.550718192994353]
既存のサンプリングガイダンス手法では、出力をバランスの取れた空間へ誘導することができない。
我々は、ヌルテキストプロンプトに条件付き未学習弱モデルを活用する、単純で効果的なパーソナライズガイダンスを提案する。
本手法は,余分な計算オーバーヘッドを伴わずに,バランスの取れた潜在空間への出力を明示的に制御する。
論文 参考訳(メタデータ) (2025-08-01T05:02:26Z) - Navigating with Annealing Guidance Scale in Diffusion Space [50.53780111249146]
誘導尺度の選択は、視覚的に魅力的で即応的なイメージへの収束に重大な影響を与える。
本研究では,時間とともに指導尺度を動的に調整するアニーリング誘導スケジューラを提案する。
実験結果から,指導スケジューラは画像品質とテキストプロンプトとの整合性を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-06-30T17:55:00Z) - Decoupled Classifier-Free Guidance for Counterfactual Diffusion Models [17.44485184010655]
Decoupled-Free Guidance(DCFG)は、グループワイドコンディショニング制御を導入したフレキシブルでモデルに依存しないフレームワークである。
DCFGは、セマンティックインプットをアンタングルする属性分割埋め込み戦略に基づいて構築されており、ユーザ定義の属性グループに対する選択的ガイダンスを可能にする。
CelebA-HQ、MIMIC-CXR、EMBEDの実験では、DCFGは介入の忠実度を改善し、意図しない変化を緩和し、可逆性を高める。
論文 参考訳(メタデータ) (2025-06-17T10:56:09Z) - Feedback Guidance of Diffusion Models [0.0]
Interval-Free Guidance (CFG) は, 条件付き拡散モデルにおける試料の忠実度向上の標準となっている。
本稿では,FBG(FeedBack Guidance)を提案する。
論文 参考訳(メタデータ) (2025-06-06T13:46:32Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking [15.052244821404079]
本稿では,モデルの予測信頼度を利用して非条件入力を調整する新しい手法であるAdaptive-Free Guidance (A-CFG)を紹介する。
A-CFGは、より効果的なガイダンスにつながる曖昧さの領域に焦点を当てている。
多様な言語生成ベンチマークの実験では、A-CFGは標準CFGよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-05-26T16:40:22Z) - Gradient-Free Classifier Guidance for Diffusion Model Sampling [4.450496470631169]
Gradient-free Guidance (GFCG) 法はクラス予測精度を一貫して改善する。
ImageNet 512$times$512では、記録的な$FD_textDINOv2$23.09を達成すると同時に、ATG (90.2%) と比較して高い分類精度 (94.3%) を達成する。
論文 参考訳(メタデータ) (2024-11-23T00:22:21Z) - Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting [55.361337202198925]
CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。
本稿では,ラベル付きデータを必要としないゼロショット性能を向上する,**Frolic**と呼ばれるラベルフリーな分布学習とバイアス補正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T04:00:45Z) - Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models [27.640009920058187]
CFG更新ルールを再検討し、この問題に対処するための修正を導入する。
過飽和を伴わない高品質な世代を実現するために並列成分の低重み付けを提案する。
また、この知見に基づいて、CFG更新ルールに対する新しい再スケーリングモーメント手法も導入する。
論文 参考訳(メタデータ) (2024-10-03T12:06:29Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Adaptive Guidance: Training-free Acceleration of Conditional Diffusion
Models [44.58960475893552]
適応誘導 (AG) は計算自由誘導 (CFG) の効率的な変種である
AGはCFGの画質を25%低下させながら保存する。
LinearAG" はベースラインモデルから逸脱するコストでさらに安価な推論を提供する。
論文 参考訳(メタデータ) (2023-12-19T17:08:48Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Bridging the Gap: Addressing Discrepancies in Diffusion Model Training
for Classifier-Free Guidance [1.6804613362826175]
拡散モデルは、生成モデルにおいて重要な進歩として現れている。
本稿では,従来の訓練方法と所望の条件付きサンプリング行動との相違点を明らかにすることを目的とする。
トレーニング目標とサンプリング行動との整合性を向上する改良された損失関数を導入する。
論文 参考訳(メタデータ) (2023-11-02T02:03:12Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - AdaptiveClick: Clicks-aware Transformer with Adaptive Focal Loss for Interactive Image Segmentation [51.82915587228898]
インタラクティブイメージ(IIS)のためのトランスフォーマーベースのマスク適応セグメンテーションフレームワークであるAdaptiveClickを紹介した。
Click-Aware Mask-Adaptive Transformer Decoder (CAMD) はクリックと画像の特徴の相互作用を強化する。
通常のViTバックボーンでは、9つのデータセットに対する広範な実験結果から、AdaptiveClickが最先端の手法よりも優れていることが示される。
論文 参考訳(メタデータ) (2023-05-07T13:47:35Z) - End-to-End Diffusion Latent Optimization Improves Classifier Guidance [81.27364542975235]
拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。
拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。
計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
論文 参考訳(メタデータ) (2023-03-23T22:43:52Z) - Graph Federated Learning for CIoT Devices in Smart Home Applications [23.216140264163535]
G-Fedfilt'と呼ばれるグラフフィルタリングに基づく新しいグラフ信号処理(GSP)に基づく集約ルールを提案する。
提案するアグリゲータは,グラフのトポロジに基づく情報の流れを構造化することができる。
モデルの一般化をテストする場合、FedAvgよりも2.41%$高い精度が得られる。
論文 参考訳(メタデータ) (2022-12-29T17:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。