論文の概要: Images Speak Louder Than Scores: Failure Mode Escape for Enhancing Generative Quality
- arxiv url: http://arxiv.org/abs/2508.09598v1
- Date: Wed, 13 Aug 2025 08:28:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.811818
- Title: Images Speak Louder Than Scores: Failure Mode Escape for Enhancing Generative Quality
- Title(参考訳): Image Speak Louder than Scores: 生成品質向上のための失敗モードエスケープ
- Authors: Jie Shao, Ke Zhu, Minghao Fu, Guo-hua Wang, Jianxin Wu,
- Abstract要約: 知覚品質を向上させるためのトレーニング不要かつ推論効率の高い手法であるFaMEを提案する。
ImageNetの実験では、FaMEはFIDを妥協することなく、視覚的品質を一貫した改善をもたらすことを示した。
- 参考スコア(独自算出の注目度): 27.764493400323975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have achieved remarkable progress in class-to-image generation. However, we observe that despite impressive FID scores, state-of-the-art models often generate distorted or low-quality images, especially in certain classes. This gap arises because FID evaluates global distribution alignment, while ignoring the perceptual quality of individual samples. We further examine the role of CFG, a common technique used to enhance generation quality. While effective in improving metrics and suppressing outliers, CFG can introduce distribution shift and visual artifacts due to its misalignment with both training objectives and user expectations. In this work, we propose FaME, a training-free and inference-efficient method for improving perceptual quality. FaME uses an image quality assessment model to identify low-quality generations and stores their sampling trajectories. These failure modes are then used as negative guidance to steer future sampling away from poor-quality regions. Experiments on ImageNet demonstrate that FaME brings consistent improvements in visual quality without compromising FID. FaME also shows the potential to be extended to improve text-to-image generation.
- Abstract(参考訳): 拡散モデルはクラス・ツー・イメージ生成において顕著な進歩を遂げた。
しかし、印象的なFIDスコアにもかかわらず、最先端のモデルは、特に特定のクラスにおいて、歪みや低品質の画像を生成することが多い。
このギャップは、FIDが個々のサンプルの知覚品質を無視しながら、グローバルな分布アライメントを評価するために生じる。
さらに、生成品質を高めるために使用される共通技術であるCFGの役割についても検討する。
CFGはメトリクスの改善とアウトリーチの抑制に有効だが、トレーニング目標とユーザ期待の両方に相違があるため、分散シフトと視覚的アーティファクトを導入することができる。
本研究では, 学習自由かつ推論効率のよい, 知覚品質向上手法であるFaMEを提案する。
FaMEは画像品質評価モデルを用いて、低品質世代を特定し、サンプリング軌跡を格納する。
これらの障害モードは、品質の悪い地域から将来のサンプリングを行うための負のガイダンスとして使用される。
ImageNetの実験では、FaMEはFIDを妥協することなく、視覚的品質を一貫した改善をもたらすことを示した。
FaMEはまた、テキスト・ツー・イメージ生成を改善するために拡張される可能性を示している。
関連論文リスト
- DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - G-Refine: A General Quality Refiner for Text-to-Image Generation [74.16137826891827]
G-Refineは,高画質画像の整合性を損なうことなく,低画質画像の高精細化を図った汎用画像精細機である。
このモデルは、知覚品質指標、アライメント品質指標、一般的な品質向上モジュールの3つの相互接続モジュールで構成されている。
大規模な実験により、G-Refine以降のAIGIは、4つのデータベースで10以上の品質指標でパフォーマンスが向上していることが明らかになった。
論文 参考訳(メタデータ) (2024-04-29T00:54:38Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - DifFIQA: Face Image Quality Assessment Using Denoising Diffusion
Probabilistic Models [1.217503190366097]
顔画像品質評価(FIQA)技術は、これらの性能劣化を軽減することを目的としている。
拡散確率モデル(DDPM)に基づく強力な新しいFIQA手法DifFIQAを提案する。
拡散に基づく摂動は計算コストが高いため、DifFIQA(R)と呼ばれる回帰ベースの品質予測器にDifFIQAで符号化された知識を蒸留する。
論文 参考訳(メタデータ) (2023-05-09T21:03:13Z) - Conformer and Blind Noisy Students for Improved Image Quality Assessment [80.57006406834466]
知覚品質評価(IQA)のための学習ベースアプローチは、通常、知覚品質を正確に測定するために歪んだ画像と参照画像の両方を必要とする。
本研究では,変換器を用いた全参照IQAモデルの性能について検討する。
また,全教師モデルから盲人学生モデルへの半教師付き知識蒸留に基づくIQAの手法を提案する。
論文 参考訳(メタデータ) (2022-04-27T10:21:08Z) - Compound Frechet Inception Distance for Quality Assessment of GAN
Created Images [7.628527132779575]
GANの注目すべき応用の1つは、ディープフェイク(deep fakes)として知られる偽の人間の顔を開発することである。
生成された画像の品質を測定することは本質的に主観的だが、標準化されたメトリクスを使って品質を客観化しようとする試みがなされている。
我々は,より広い視覚的欠陥をカバーするために,低レベルの特徴を統合することにより,評価プロセスの堅牢性を向上させることを提案する。
論文 参考訳(メタデータ) (2021-06-16T06:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。