Fugu-MT 論文翻訳(概要): Classifier-free Guidance with Adaptive Scaling

論文の概要: Classifier-free Guidance with Adaptive Scaling

arxiv url: http://arxiv.org/abs/2502.10574v1
Date: Fri, 14 Feb 2025 22:04:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.53675
Title: Classifier-free Guidance with Adaptive Scaling
Title（参考訳）: Adaptive Scalingによる分類自由誘導
Authors: Dawid Malarz, Artur Kasymov, Maciej Zięba, Jacek Tabor, Przemysław Spurek,
Abstract要約: フリーガイダンス(CFG)は、テキスト駆動拡散モデルにおいて必須のメカニズムである。本稿では,世代誘導の影響を制御できる$beta$adaptive-CFGを提案する。提案モデルでは,テキスト・ツー・イメージのCLIP類似度スコアを,参照CFGと類似したレベルに維持し,FIDスコアが向上した。
参考スコア（独自算出の注目度）: 7.179513844921256
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Classifier-free guidance (CFG) is an essential mechanism in contemporary text-driven diffusion models. In practice, in controlling the impact of guidance we can see the trade-off between the quality of the generated images and correspondence to the prompt. When we use strong guidance, generated images fit the conditioned text perfectly but at the cost of their quality. Dually, we can use small guidance to generate high-quality results, but the generated images do not suit our prompt. In this paper, we present $\beta$-CFG ($\beta$-adaptive scaling in Classifier-Free Guidance), which controls the impact of guidance during generation to solve the above trade-off. First, $\beta$-CFG stabilizes the effects of guiding by gradient-based adaptive normalization. Second, $\beta$-CFG uses the family of single-modal ($\beta$-distribution), time-dependent curves to dynamically adapt the trade-off between prompt matching and the quality of samples during the diffusion denoising process. Our model obtained better FID scores, maintaining the text-to-image CLIP similarity scores at a level similar to that of the reference CFG.
Abstract（参考訳）: クラシファイアフリーガイダンス(CFG)は、現代テキスト駆動拡散モデルにおいて必須のメカニズムである。実際には、ガイダンスの影響を制御する際に、生成された画像の品質とプロンプトへの対応とのトレードオフを見ることができる。強いガイダンスを使用すると、生成された画像は条件付きテキストに完全に適合するが、品質の犠牲になる。第二に、我々は小さなガイダンスを使って高品質な結果を生成することができるが、生成した画像は我々のプロンプトに合わない。本稿では、上記のトレードオフを解決するため、世代間のガイダンスの影響を制御できる$\beta$-CFG(\beta$-adaptive Scaling in Classifier-Free Guidance)を提案する。まず、$\beta$-CFGは勾配に基づく適応正規化による誘導の効果を安定化させる。第二に、$\beta$-CFGは単調な(\beta$-distribution)曲線の族を使い、拡散復調過程において、プロンプトマッチングとサンプルの品質の間のトレードオフを動的に適応させる。提案モデルでは,テキスト・ツー・イメージのCLIP類似度スコアを,参照CFGと類似したレベルに維持し,FIDスコアが向上した。

関連論文リスト

Navigating with Annealing Guidance Scale in Diffusion Space [50.53780111249146]
誘導尺度の選択は、視覚的に魅力的で即応的なイメージへの収束に重大な影響を与える。本研究では,時間とともに指導尺度を動的に調整するアニーリング誘導スケジューラを提案する。実験結果から,指導スケジューラは画像品質とテキストプロンプトとの整合性を著しく向上することが示された。
論文参考訳（メタデータ） (2025-06-30T17:55:00Z)
Decoupled Classifier-Free Guidance for Counterfactual Diffusion Models [17.44485184010655]
Decoupled-Free Guidance(DCFG)は、グループワイドコンディショニング制御を導入したフレキシブルでモデルに依存しないフレームワークである。 DCFGは、セマンティックインプットをアンタングルする属性分割埋め込み戦略に基づいて構築されており、ユーザ定義の属性グループに対する選択的ガイダンスを可能にする。 CelebA-HQ、MIMIC-CXR、EMBEDの実験では、DCFGは介入の忠実度を改善し、意図しない変化を緩和し、可逆性を高める。
論文参考訳（メタデータ） (2025-06-17T10:56:09Z)
Feedback Guidance of Diffusion Models [0.0]
Interval-Free Guidance (CFG) は, 条件付き拡散モデルにおける試料の忠実度向上の標準となっている。本稿では,FBG(FeedBack Guidance)を提案する。
論文参考訳（メタデータ） (2025-06-06T13:46:32Z)
Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。 NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。 NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文参考訳（メタデータ） (2025-05-27T13:30:46Z)
Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking [15.052244821404079]
本稿では,モデルの予測信頼度を利用して非条件入力を調整する新しい手法であるAdaptive-Free Guidance (A-CFG)を紹介する。 A-CFGは、より効果的なガイダンスにつながる曖昧さの領域に焦点を当てている。多様な言語生成ベンチマークの実験では、A-CFGは標準CFGよりも大幅に改善されている。
論文参考訳（メタデータ） (2025-05-26T16:40:22Z)
Gradient-Free Classifier Guidance for Diffusion Model Sampling [4.450496470631169]
Gradient-free Guidance (GFCG) 法はクラス予測精度を一貫して改善する。 ImageNet 512$times$512では、記録的な$FD_textDINOv2$23.09を達成すると同時に、ATG (90.2%) と比較して高い分類精度 (94.3%) を達成する。
論文参考訳（メタデータ） (2024-11-23T00:22:21Z)
Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting [55.361337202198925]
CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。本稿では,ラベル付きデータを必要としないゼロショット性能を向上する,**Frolic**と呼ばれるラベルフリーな分布学習とバイアス補正フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-25T04:00:45Z)
Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models [27.640009920058187]
CFG更新ルールを再検討し、この問題に対処するための修正を導入する。過飽和を伴わない高品質な世代を実現するために並列成分の低重み付けを提案する。また、この知見に基づいて、CFG更新ルールに対する新しい再スケーリングモーメント手法も導入する。
論文参考訳（メタデータ） (2024-10-03T12:06:29Z)
Forgery-aware Adaptive Transformer for Generalizable Synthetic Image Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文参考訳（メタデータ） (2023-12-27T17:36:32Z)
Adaptive Guidance: Training-free Acceleration of Conditional Diffusion Models [44.58960475893552]
適応誘導 (AG) は計算自由誘導 (CFG) の効率的な変種である AGはCFGの画質を25%低下させながら保存する。 LinearAG" はベースラインモデルから逸脱するコストでさらに安価な推論を提供する。
論文参考訳（メタデータ） (2023-12-19T17:08:48Z)
Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文参考訳（メタデータ） (2023-11-22T15:07:59Z)
Bridging the Gap: Addressing Discrepancies in Diffusion Model Training for Classifier-Free Guidance [1.6804613362826175]
拡散モデルは、生成モデルにおいて重要な進歩として現れている。本稿では,従来の訓練方法と所望の条件付きサンプリング行動との相違点を明らかにすることを目的とする。トレーニング目標とサンプリング行動との整合性を向上する改良された損失関数を導入する。
論文参考訳（メタデータ） (2023-11-02T02:03:12Z)
Consistency Regularization for Generalizable Source-free Domain Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-03T07:45:53Z)
AdaptiveClick: Clicks-aware Transformer with Adaptive Focal Loss for Interactive Image Segmentation [51.82915587228898]
インタラクティブイメージ(IIS)のためのトランスフォーマーベースのマスク適応セグメンテーションフレームワークであるAdaptiveClickを紹介した。 Click-Aware Mask-Adaptive Transformer Decoder (CAMD) はクリックと画像の特徴の相互作用を強化する。通常のViTバックボーンでは、9つのデータセットに対する広範な実験結果から、AdaptiveClickが最先端の手法よりも優れていることが示される。
論文参考訳（メタデータ） (2023-05-07T13:47:35Z)
End-to-End Diffusion Latent Optimization Improves Classifier Guidance [81.27364542975235]
拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
論文参考訳（メタデータ） (2023-03-23T22:43:52Z)
Graph Federated Learning for CIoT Devices in Smart Home Applications [23.216140264163535]
G-Fedfilt'と呼ばれるグラフフィルタリングに基づく新しいグラフ信号処理(GSP)に基づく集約ルールを提案する。提案するアグリゲータは,グラフのトポロジに基づく情報の流れを構造化することができる。モデルの一般化をテストする場合、FedAvgよりも2.41%$高い精度が得られる。
論文参考訳（メタデータ） (2022-12-29T17:57:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。