論文の概要: Dynamic Classifier-Free Diffusion Guidance via Online Feedback
- arxiv url: http://arxiv.org/abs/2509.16131v2
- Date: Mon, 22 Sep 2025 07:47:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:45.661285
- Title: Dynamic Classifier-Free Diffusion Guidance via Online Feedback
- Title(参考訳): オンラインフィードバックによる動的分類器フリー拡散誘導
- Authors: Pinelopi Papalampidi, Olivia Wiles, Ira Ktena, Aleksandar Shtedritski, Emanuele Bugliarello, Ivana Kajic, Isabela Albuquerque, Aida Nematzadeh,
- Abstract要約: ワンサイズオール"アプローチは、異なるプロンプトの多様な要件に適応できない。
動的CFGスケジューリングのためのフレームワークを提案する。
我々は,小型モデルと最先端のImagen 3におけるアプローチの有効性を実証する。
- 参考スコア(独自算出の注目度): 53.54876309092376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classifier-free guidance (CFG) is a cornerstone of text-to-image diffusion models, yet its effectiveness is limited by the use of static guidance scales. This "one-size-fits-all" approach fails to adapt to the diverse requirements of different prompts; moreover, prior solutions like gradient-based correction or fixed heuristic schedules introduce additional complexities and fail to generalize. In this work, we challeng this static paradigm by introducing a framework for dynamic CFG scheduling. Our method leverages online feedback from a suite of general-purpose and specialized small-scale latent-space evaluations, such as CLIP for alignment, a discriminator for fidelity and a human preference reward model, to assess generation quality at each step of the reverse diffusion process. Based on this feedback, we perform a greedy search to select the optimal CFG scale for each timestep, creating a unique guidance schedule tailored to every prompt and sample. We demonstrate the effectiveness of our approach on both small-scale models and the state-of-the-art Imagen 3, showing significant improvements in text alignment, visual quality, text rendering and numerical reasoning. Notably, when compared against the default Imagen 3 baseline, our method achieves up to 53.8% human preference win-rate for overall preference, a figure that increases up to to 55.5% on prompts targeting specific capabilities like text rendering. Our work establishes that the optimal guidance schedule is inherently dynamic and prompt-dependent, and provides an efficient and generalizable framework to achieve it.
- Abstract(参考訳): 分類器フリーガイダンス (CFG) はテキストから画像への拡散モデルの基礎であるが、静的誘導尺度を用いることで有効性は制限される。
この「ワンサイズフィットオール」アプローチは異なるプロンプトの様々な要求に適応できず、さらに、勾配ベースの補正や固定ヒューリスティックスケジュールのような以前の解決策は、さらなる複雑さをもたらし、一般化に失敗する。
本研究では,動的CFGスケジューリングのためのフレームワークを導入することで,この静的パラダイムを実現する。
提案手法は,アライメントのためのCLIP,忠実度判別器,人間の嗜好報酬モデルなど,汎用的かつ特殊な小規模潜在空間評価のスイートから得られるオンラインフィードバックを利用して,逆拡散過程の各ステップにおける生成品質を評価する。
このフィードバックに基づいて、各タイムステップ毎に最適なCFGスケールを選択するための欲求検索を行い、各プロンプトとサンプルに合わせた独自のガイダンススケジュールを作成する。
我々は,小型モデルと最先端のImagen 3におけるアプローチの有効性を実証し,テキストアライメント,視覚的品質,テキストレンダリング,数値推論の大幅な改善を示した。
特に、デフォルトのImagen 3ベースラインと比較すると、全体の嗜好に対して最大53.8%の人選好が勝利し、テキストレンダリングのような特定の機能をターゲットにしたプロンプトで最大55.5%まで上昇する。
我々の研究は、最適ガイダンススケジュールが本質的に動的かつ即時依存であることを確立し、それを実現するための効率的で一般化可能なフレームワークを提供する。
関連論文リスト
- Steering Guidance for Personalized Text-to-Image Diffusion Models [19.550718192994353]
既存のサンプリングガイダンス手法では、出力をバランスの取れた空間へ誘導することができない。
我々は、ヌルテキストプロンプトに条件付き未学習弱モデルを活用する、単純で効果的なパーソナライズガイダンスを提案する。
本手法は,余分な計算オーバーヘッドを伴わずに,バランスの取れた潜在空間への出力を明示的に制御する。
論文 参考訳(メタデータ) (2025-08-01T05:02:26Z) - Navigating with Annealing Guidance Scale in Diffusion Space [50.53780111249146]
誘導尺度の選択は、視覚的に魅力的で即応的なイメージへの収束に重大な影響を与える。
本研究では,時間とともに指導尺度を動的に調整するアニーリング誘導スケジューラを提案する。
実験結果から,指導スケジューラは画像品質とテキストプロンプトとの整合性を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-06-30T17:55:00Z) - How Much To Guide: Revisiting Adaptive Guidance in Classifier-Free Guidance Text-to-Vision Diffusion Models [57.42800112251644]
我々は、シンプルで普遍的な適応型ガイダンス戦略であるStep AGを提案する。
評価は画像品質と画像テキストアライメントの両方に焦点をあてる。
論文 参考訳(メタデータ) (2025-06-10T02:09:48Z) - ARNet: Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - DynaSeg: A Deep Dynamic Fusion Method for Unsupervised Image Segmentation Incorporating Feature Similarity and Spatial Continuity [0.5755004576310334]
我々は、革新的な教師なしイメージセグメンテーションアプローチであるDynaSegを紹介する。
従来の方法とは異なり、DynaSegは画像の特徴に柔軟に対応する動的重み付け方式を採用している。
DynaSegは、予測されたクラスタ数が1つに収束する可能性のある、過小評価の失敗を防ぐ。
論文 参考訳(メタデータ) (2024-05-09T00:30:45Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Bridging CLIP and StyleGAN through Latent Alignment for Image Editing [33.86698044813281]
我々はCLIPとStyleGANを橋渡し、推論時最適化のない多様な操作方向マイニングを実現する。
このマッピング方式により、GANインバージョン、テキスト・ツー・イメージ生成、テキスト駆動画像操作を実現することができる。
論文 参考訳(メタデータ) (2022-10-10T09:17:35Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。