論文の概要: Guidance Matters: Rethinking the Evaluation Pitfall for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2602.22570v1
- Date: Thu, 26 Feb 2026 03:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.50493
- Title: Guidance Matters: Rethinking the Evaluation Pitfall for Text-to-Image Generation
- Title(参考訳): 指導要領:テキスト・ツー・イメージ・ジェネレーションのための評価ピットフォールの再考
- Authors: Dian Xie, Shitong Shao, Lichen Bai, Zikai Zhou, Bojun Cheng, Shuo Yang, Jun Wu, Zeke Xie,
- Abstract要約: 新たな拡散誘導法は, 堅固かつ重要な改善を達成できるのか?
我々は、一般的な人間の嗜好モデルが大規模な指導尺度に対して強い偏見を示すという批判的な評価の落とし穴を明らかにした。
第2に,効果的な指導尺度キャリブレーションを用いたガイダンス・アウェア・アセスメント(GA-Eval)フレームワークを提案する。
第3に, 従来の評価フレームワークにおいて, 人間の嗜好スコアを大幅に改善するが, 実際に機能しないTranscendent Diffusion Guidance(TDG)を設計する。
- 参考スコア(独自算出の注目度): 27.855521267795208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifier-free guidance (CFG) has helped diffusion models achieve great conditional generation in various fields. Recently, more diffusion guidance methods have emerged with improved generation quality and human preference. However, can these emerging diffusion guidance methods really achieve solid and significant improvements? In this paper, we rethink recent progress on diffusion guidance. Our work mainly consists of four contributions. First, we reveal a critical evaluation pitfall that common human preference models exhibit a strong bias towards large guidance scales. Simply increasing the CFG scale can easily improve quantitative evaluation scores due to strong semantic alignment, even if image quality is severely damaged (e.g., oversaturation and artifacts). Second, we introduce a novel guidance-aware evaluation (GA-Eval) framework that employs effective guidance scale calibration to enable fair comparison between current guidance methods and CFG by identifying the effects orthogonal and parallel to CFG effects. Third, motivated by the evaluation pitfall, we design Transcendent Diffusion Guidance (TDG) method that can significantly improve human preference scores in the conventional evaluation framework but actually does not work in practice. Fourth, in extensive experiments, we empirically evaluate recent eight diffusion guidance methods within the conventional evaluation framework and the proposed GA-Eval framework. Notably, simply increasing the CFG scales can compete with most studied diffusion guidance methods, while all methods suffer severely from winning rate degradation over standard CFG. Our work would strongly motivate the community to rethink the evaluation paradigm and future directions of this field.
- Abstract(参考訳): 分類器フリーガイダンス(CFG)は、拡散モデルが様々な分野において大きな条件生成を実現するのに役立っている。
近年、より拡散誘導法が出現し、生成品質と人間の嗜好が改善されている。
しかし、これらの新たな拡散誘導手法は、本当にしっかりと重要な改善を達成できるのだろうか?
本稿では,拡散誘導の最近の進歩を再考する。
私たちの仕事はおもに4つの貢献から成り立っている。
まず、一般的な人間の嗜好モデルが大規模な指導尺度に対して強い偏見を示すという批判的な評価の落とし穴を明らかにする。
CFGスケールの増大は、画像品質が著しく損なわれても(例えば、過飽和やアーティファクト)、強いセマンティックアライメントによる定量的評価スコアを容易に向上させることができる。
第2に,従来の指導方法とCFGとの公平な比較を可能にするため,効果的な指導尺度校正を利用したGA-Evalフレームワークを提案する。
第3に, 従来の評価フレームワークにおいて, 人間の嗜好スコアを大幅に改善するが実際は機能しないTranscendent Diffusion Guidance(TDG)を設計する。
第4に,従来の評価フレームワークと提案したGA-Evalフレームワークにおいて,近年の8つの拡散誘導手法を実証的に評価した。
特に、CFG尺度を単純に増やすことは、ほとんどの研究された拡散誘導手法と競合するが、全ての手法は標準CFGよりも勝利率の低下に苦しむ。
我々の研究は、この分野の評価パラダイムと今後の方向性を再考するコミュニティを強く動機付けます。
関連論文リスト
- How Much To Guide: Revisiting Adaptive Guidance in Classifier-Free Guidance Text-to-Vision Diffusion Models [57.42800112251644]
我々は、シンプルで普遍的な適応型ガイダンス戦略であるStep AGを提案する。
評価は画像品質と画像テキストアライメントの両方に焦点をあてる。
論文 参考訳(メタデータ) (2025-06-10T02:09:48Z) - A Meaningful Perturbation Metric for Evaluating Explainability Methods [55.09730499143998]
本稿では,画像生成モデルを用いて標的摂動を行う新しい手法を提案する。
具体的には,画像の忠実さを保ちながら,入力画像の高関連画素のみを塗布し,モデルの予測を変更することに焦点を当てる。
これは、しばしばアウト・オブ・ディストリビューションの修正を生み出し、信頼できない結果をもたらす既存のアプローチとは対照的である。
論文 参考訳(メタデータ) (2025-04-09T11:46:41Z) - Domain Guidance: A Simple Transfer Approach for a Pre-trained Diffusion Model [62.11981915549919]
ドメインガイダンス(Domain Guidance)は、トレーニング済みの知識を活用して、サンプリングプロセスを対象のドメインに誘導する移行アプローチである。
FIDは19.6%改善し、FD$_textDINOv2$は23.4%改善した。
論文 参考訳(メタデータ) (2025-04-02T09:07:55Z) - REG: Rectified Gradient Guidance for Conditional Diffusion Models [16.275782069986253]
本稿では,既存のガイダンス手法の性能向上を図るために,修正勾配ガイダンス(REG)を提案する。
REGは、事前のガイダンス技術よりも最適なソリューションにより良い近似を提供する。
クラス条件の画像ネットとテキスト・ツー・イメージ生成タスクの実験では、REGは一貫してFIDとインセプション/CLIPスコアを改善している。
論文 参考訳(メタデータ) (2025-01-31T03:16:18Z) - Nested Annealed Training Scheme for Generative Adversarial Networks [54.70743279423088]
本稿では、厳密な数学的理論的枠組みである複合機能段階GAN(CFG)に焦点を当てる。
CFGモデルとスコアベースモデルとの理論的関係を明らかにする。
CFG判別器の学習目的は最適D(x)を求めることと等価であることがわかった。
論文 参考訳(メタデータ) (2025-01-20T07:44:09Z) - Contrastive CFG: Improving CFG in Diffusion Models by Contrasting Positive and Negative Concepts [55.298031232672734]
As-Free Guidance (CFG) は条件拡散モデルサンプリングに有効であることが証明された。
対照的な損失を用いた負のCFG誘導を強化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T03:29:27Z) - Adaptive Guidance: Training-free Acceleration of Conditional Diffusion
Models [44.58960475893552]
適応誘導 (AG) は計算自由誘導 (CFG) の効率的な変種である
AGはCFGの画質を25%低下させながら保存する。
LinearAG" はベースラインモデルから逸脱するコストでさらに安価な推論を提供する。
論文 参考訳(メタデータ) (2023-12-19T17:08:48Z) - Exploring the Optimization Objective of One-Class Classification for
Anomaly Detection [2.9266769103356305]
一級分類(英: One-class classification, OCC)は、異常検出の長年の方法である。
本研究では,OCCの最適化目標について徹底的に検討する。
適切なノルムを持つ任意の空間は、超球中心の代用として機能する。
この新たな洞察は、単純でデータに依存しないディープワンクラス分類法に火をつけている。
論文 参考訳(メタデータ) (2023-08-23T03:46:04Z) - Contrastive Learning for Debiased Candidate Generation in Large-Scale
Recommender Systems [84.3996727203154]
コントラスト損失の一般的な選択は、逆確率重み付けによる露光バイアスの低減と等価であることを示す。
我々はCLRecをさらに改良し、マルチCLRecを提案する。
提案手法は,少なくとも4ヶ月のオンラインA/Bテストとオフライン分析が実施され,大幅に改善されている。
論文 参考訳(メタデータ) (2020-05-20T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。