論文の概要: Classifier-free Guidance with Adaptive Scaling
- arxiv url: http://arxiv.org/abs/2502.10574v1
- Date: Fri, 14 Feb 2025 22:04:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:11:41.048320
- Title: Classifier-free Guidance with Adaptive Scaling
- Title(参考訳): Adaptive Scalingによる分類自由誘導
- Authors: Dawid Malarz, Artur Kasymov, Maciej Zięba, Jacek Tabor, Przemysław Spurek,
- Abstract要約: フリーガイダンス(CFG)は、テキスト駆動拡散モデルにおいて必須のメカニズムである。
本稿では,世代誘導の影響を制御できる$beta$adaptive-CFGを提案する。
提案モデルでは,テキスト・ツー・イメージのCLIP類似度スコアを,参照CFGと類似したレベルに維持し,FIDスコアが向上した。
- 参考スコア(独自算出の注目度): 7.179513844921256
- License:
- Abstract: Classifier-free guidance (CFG) is an essential mechanism in contemporary text-driven diffusion models. In practice, in controlling the impact of guidance we can see the trade-off between the quality of the generated images and correspondence to the prompt. When we use strong guidance, generated images fit the conditioned text perfectly but at the cost of their quality. Dually, we can use small guidance to generate high-quality results, but the generated images do not suit our prompt. In this paper, we present $\beta$-CFG ($\beta$-adaptive scaling in Classifier-Free Guidance), which controls the impact of guidance during generation to solve the above trade-off. First, $\beta$-CFG stabilizes the effects of guiding by gradient-based adaptive normalization. Second, $\beta$-CFG uses the family of single-modal ($\beta$-distribution), time-dependent curves to dynamically adapt the trade-off between prompt matching and the quality of samples during the diffusion denoising process. Our model obtained better FID scores, maintaining the text-to-image CLIP similarity scores at a level similar to that of the reference CFG.
- Abstract(参考訳): クラシファイアフリーガイダンス(CFG)は、現代テキスト駆動拡散モデルにおいて必須のメカニズムである。
実際には、ガイダンスの影響を制御する際に、生成された画像の品質とプロンプトへの対応とのトレードオフを見ることができる。
強いガイダンスを使用すると、生成された画像は条件付きテキストに完全に適合するが、品質の犠牲になる。
第二に、我々は小さなガイダンスを使って高品質な結果を生成することができるが、生成した画像は我々のプロンプトに合わない。
本稿では、上記のトレードオフを解決するため、世代間のガイダンスの影響を制御できる$\beta$-CFG(\beta$-adaptive Scaling in Classifier-Free Guidance)を提案する。
まず、$\beta$-CFGは勾配に基づく適応正規化による誘導の効果を安定化させる。
第二に、$\beta$-CFGは単調な(\beta$-distribution)曲線の族を使い、拡散復調過程において、プロンプトマッチングとサンプルの品質の間のトレードオフを動的に適応させる。
提案モデルでは,テキスト・ツー・イメージのCLIP類似度スコアを,参照CFGと類似したレベルに維持し,FIDスコアが向上した。
関連論文リスト
- Gradient-Free Classifier Guidance for Diffusion Model Sampling [4.450496470631169]
Gradient-free Guidance (GFCG) 法はクラス予測精度を一貫して改善する。
ImageNet 512$times$512では、記録的な$FD_textDINOv2$23.09を達成すると同時に、ATG (90.2%) と比較して高い分類精度 (94.3%) を達成する。
論文 参考訳(メタデータ) (2024-11-23T00:22:21Z) - Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting [55.361337202198925]
CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。
本稿では,ラベル付きデータを必要としないゼロショット性能を向上する,**Frolic**と呼ばれるラベルフリーな分布学習とバイアス補正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T04:00:45Z) - Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models [27.640009920058187]
CFG更新ルールを再検討し、この問題に対処するための修正を導入する。
過飽和を伴わない高品質な世代を実現するために並列成分の低重み付けを提案する。
また、この知見に基づいて、CFG更新ルールに対する新しい再スケーリングモーメント手法も導入する。
論文 参考訳(メタデータ) (2024-10-03T12:06:29Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Adaptive Guidance: Training-free Acceleration of Conditional Diffusion
Models [44.58960475893552]
適応誘導 (AG) は計算自由誘導 (CFG) の効率的な変種である
AGはCFGの画質を25%低下させながら保存する。
LinearAG" はベースラインモデルから逸脱するコストでさらに安価な推論を提供する。
論文 参考訳(メタデータ) (2023-12-19T17:08:48Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Bridging the Gap: Addressing Discrepancies in Diffusion Model Training
for Classifier-Free Guidance [1.6804613362826175]
拡散モデルは、生成モデルにおいて重要な進歩として現れている。
本稿では,従来の訓練方法と所望の条件付きサンプリング行動との相違点を明らかにすることを目的とする。
トレーニング目標とサンプリング行動との整合性を向上する改良された損失関数を導入する。
論文 参考訳(メタデータ) (2023-11-02T02:03:12Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - AdaptiveClick: Clicks-aware Transformer with Adaptive Focal Loss for Interactive Image Segmentation [51.82915587228898]
インタラクティブイメージ(IIS)のためのトランスフォーマーベースのマスク適応セグメンテーションフレームワークであるAdaptiveClickを紹介した。
Click-Aware Mask-Adaptive Transformer Decoder (CAMD) はクリックと画像の特徴の相互作用を強化する。
通常のViTバックボーンでは、9つのデータセットに対する広範な実験結果から、AdaptiveClickが最先端の手法よりも優れていることが示される。
論文 参考訳(メタデータ) (2023-05-07T13:47:35Z) - End-to-End Diffusion Latent Optimization Improves Classifier Guidance [81.27364542975235]
拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。
拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。
計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
論文 参考訳(メタデータ) (2023-03-23T22:43:52Z) - Graph Federated Learning for CIoT Devices in Smart Home Applications [23.216140264163535]
G-Fedfilt'と呼ばれるグラフフィルタリングに基づく新しいグラフ信号処理(GSP)に基づく集約ルールを提案する。
提案するアグリゲータは,グラフのトポロジに基づく情報の流れを構造化することができる。
モデルの一般化をテストする場合、FedAvgよりも2.41%$高い精度が得られる。
論文 参考訳(メタデータ) (2022-12-29T17:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。