論文の概要: Prompt-aware classifier free guidance for diffusion models
- arxiv url: http://arxiv.org/abs/2509.22728v2
- Date: Sun, 05 Oct 2025 11:32:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.792087
- Title: Prompt-aware classifier free guidance for diffusion models
- Title(参考訳): 拡散モデルのためのプロンプト対応分類器フリーガイダンス
- Authors: Xuanhao Zhang, Chang Li,
- Abstract要約: 本稿では,スケール依存品質を予測し,推論時に最適なガイダンスを選択するプロンプト対応フレームワークを提案する。
セマンティック埋め込みと言語的複雑性を条件とした軽量な予測器は、マルチメトリック品質曲線を推定する。
MSCOCO2014とAudioCapsの実験では、バニラCFGよりも一貫した改善が見られた。
- 参考スコア(独自算出の注目度): 3.3115063666033167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved remarkable progress in image and audio generation, largely due to Classifier-Free Guidance. However, the choice of guidance scale remains underexplored: a fixed scale often fails to generalize across prompts of varying complexity, leading to oversaturation or weak alignment. We address this gap by introducing a prompt-aware framework that predicts scale-dependent quality and selects the optimal guidance at inference. Specifically, we construct a large synthetic dataset by generating samples under multiple scales and scoring them with reliable evaluation metrics. A lightweight predictor, conditioned on semantic embeddings and linguistic complexity, estimates multi-metric quality curves and determines the best scale via a utility function with regularization. Experiments on MSCOCO~2014 and AudioCaps show consistent improvements over vanilla CFG, enhancing fidelity, alignment, and perceptual preference. This work demonstrates that prompt-aware scale selection provides an effective, training-free enhancement for pretrained diffusion backbones.
- Abstract(参考訳): 拡散モデルは画像生成と音声生成において顕著な進歩を遂げている。
しかし、ガイダンススケールの選択は未解決のままであり、固定スケールは様々な複雑さのプロンプトをまたいだ一般化に失敗し、過飽和やアライメントが弱くなる。
このギャップに対処するために、スケール依存品質を予測し、推論時に最適なガイダンスを選択するプロンプト対応フレームワークを導入する。
具体的には、複数のスケールでサンプルを生成し、信頼性の高い評価指標で評価することで、大規模な合成データセットを構築する。
セマンティックな埋め込みと言語的複雑さを前提とした軽量な予測器は、多メトリックな品質曲線を推定し、正規化を伴うユーティリティ関数を介して最適なスケールを決定する。
MSCOCO~2014とAudioCapsの実験では、バニラCFGよりも一貫した改善が見られ、忠実さ、アライメント、知覚的嗜好が向上した。
この研究は、事前学習した拡散バックボーンに対して、迅速なスケール選択が効果的で、トレーニングなしの強化をもたらすことを示す。
関連論文リスト
- Dynamic Classifier-Free Diffusion Guidance via Online Feedback [53.54876309092376]
ワンサイズオール"アプローチは、異なるプロンプトの多様な要件に適応できない。
動的CFGスケジューリングのためのフレームワークを提案する。
我々は,小型モデルと最先端のImagen 3におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2025-09-19T16:27:19Z) - Diffusion Classifier Guidance for Non-robust Classifiers [0.5999777817331317]
拡散過程の雑音に対する一般,非ロバスト,ロバストな分類器の感度について検討した。
非ロバスト分類器はノイズ条件下で大きな精度劣化を示し、不安定な誘導勾配をもたらす。
本稿では,一段階の復号化画像予測を利用して最適化手法に着想を得た手法を提案する。
論文 参考訳(メタデータ) (2025-07-01T11:39:41Z) - Feedback Guidance of Diffusion Models [0.0]
Interval-Free Guidance (CFG) は, 条件付き拡散モデルにおける試料の忠実度向上の標準となっている。
本稿では,FBG(FeedBack Guidance)を提案する。
論文 参考訳(メタデータ) (2025-06-06T13:46:32Z) - Foster Adaptivity and Balance in Learning with Noisy Labels [26.309508654960354]
我々はtextbfSelf-adaptivtextbfE とクラスバランスtextbfD 方式でラベルノイズに対処するための textbfSED という新しい手法を提案する。
平均教師モデルは、ノイズの多いサンプルのラベルを修正するために使用される。
また,検出した雑音に異なる重みを割り当てる自己適応型およびクラスバランスのサンプル再重み付け機構を提案する。
論文 参考訳(メタデータ) (2024-07-03T03:10:24Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。