論文の概要: Images Speak Louder Than Scores: Failure Mode Escape for Enhancing Generative Quality
- arxiv url: http://arxiv.org/abs/2508.09598v1
- Date: Wed, 13 Aug 2025 08:28:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.811818
- Title: Images Speak Louder Than Scores: Failure Mode Escape for Enhancing Generative Quality
- Title(参考訳): Image Speak Louder than Scores: 生成品質向上のための失敗モードエスケープ
- Authors: Jie Shao, Ke Zhu, Minghao Fu, Guo-hua Wang, Jianxin Wu,
- Abstract要約: 知覚品質を向上させるためのトレーニング不要かつ推論効率の高い手法であるFaMEを提案する。
ImageNetの実験では、FaMEはFIDを妥協することなく、視覚的品質を一貫した改善をもたらすことを示した。
- 参考スコア(独自算出の注目度): 27.764493400323975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have achieved remarkable progress in class-to-image generation. However, we observe that despite impressive FID scores, state-of-the-art models often generate distorted or low-quality images, especially in certain classes. This gap arises because FID evaluates global distribution alignment, while ignoring the perceptual quality of individual samples. We further examine the role of CFG, a common technique used to enhance generation quality. While effective in improving metrics and suppressing outliers, CFG can introduce distribution shift and visual artifacts due to its misalignment with both training objectives and user expectations. In this work, we propose FaME, a training-free and inference-efficient method for improving perceptual quality. FaME uses an image quality assessment model to identify low-quality generations and stores their sampling trajectories. These failure modes are then used as negative guidance to steer future sampling away from poor-quality regions. Experiments on ImageNet demonstrate that FaME brings consistent improvements in visual quality without compromising FID. FaME also shows the potential to be extended to improve text-to-image generation.
- Abstract(参考訳): 拡散モデルはクラス・ツー・イメージ生成において顕著な進歩を遂げた。
しかし、印象的なFIDスコアにもかかわらず、最先端のモデルは、特に特定のクラスにおいて、歪みや低品質の画像を生成することが多い。
このギャップは、FIDが個々のサンプルの知覚品質を無視しながら、グローバルな分布アライメントを評価するために生じる。
さらに、生成品質を高めるために使用される共通技術であるCFGの役割についても検討する。
CFGはメトリクスの改善とアウトリーチの抑制に有効だが、トレーニング目標とユーザ期待の両方に相違があるため、分散シフトと視覚的アーティファクトを導入することができる。
本研究では, 学習自由かつ推論効率のよい, 知覚品質向上手法であるFaMEを提案する。
FaMEは画像品質評価モデルを用いて、低品質世代を特定し、サンプリング軌跡を格納する。
これらの障害モードは、品質の悪い地域から将来のサンプリングを行うための負のガイダンスとして使用される。
ImageNetの実験では、FaMEはFIDを妥協することなく、視覚的品質を一貫した改善をもたらすことを示した。
FaMEはまた、テキスト・ツー・イメージ生成を改善するために拡張される可能性を示している。
関連論文リスト
- EMAG: Self-Rectifying Diffusion Sampling with Exponential Moving Average Guidance [31.550239698285058]
拡散および流れマッチング生成モデルでは、サンプルの品質と一貫性を改善するためにガイダンス技術が広く用いられている。
最近の研究では、より弱いモデルを用いた推論における負のサンプルの対比について検討している。
本研究では,拡散変圧器における推定時間における注意を変調するトレーニング不要なメカニズムである,指数移動平均誘導(EMAG)を提案する。
論文 参考訳(メタデータ) (2025-12-19T07:36:07Z) - A Data-Centric Perspective on the Influence of Image Data Quality in Machine Learning Models [0.0]
本研究では,画像データセットの品質を体系的に評価する手法について検討する。
一般的な品質問題を特定し、トレーニングへの影響を定量化します。
コミュニティが開発したツールであるCleanVisionとFastdupを統合したパイプラインを開発しています。
論文 参考訳(メタデータ) (2025-09-29T08:09:21Z) - Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。
これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。
学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文 参考訳(メタデータ) (2024-12-09T21:36:10Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - G-Refine: A General Quality Refiner for Text-to-Image Generation [74.16137826891827]
G-Refineは,高画質画像の整合性を損なうことなく,低画質画像の高精細化を図った汎用画像精細機である。
このモデルは、知覚品質指標、アライメント品質指標、一般的な品質向上モジュールの3つの相互接続モジュールで構成されている。
大規模な実験により、G-Refine以降のAIGIは、4つのデータベースで10以上の品質指標でパフォーマンスが向上していることが明らかになった。
論文 参考訳(メタデータ) (2024-04-29T00:54:38Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Class-Prototype Conditional Diffusion Model with Gradient Projection for Continual Learning [20.175586324567025]
破滅的な忘れ方を減らすことは、継続的な学習における重要なハードルである。
大きな問題は、生成したデータの品質がオリジナルのものと比べて低下することである。
本稿では,ジェネレータにおける画像品質を向上させる連続学習のためのGRに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-10T17:39:42Z) - DifFIQA: Face Image Quality Assessment Using Denoising Diffusion
Probabilistic Models [1.217503190366097]
顔画像品質評価(FIQA)技術は、これらの性能劣化を軽減することを目的としている。
拡散確率モデル(DDPM)に基づく強力な新しいFIQA手法DifFIQAを提案する。
拡散に基づく摂動は計算コストが高いため、DifFIQA(R)と呼ばれる回帰ベースの品質予測器にDifFIQAで符号化された知識を蒸留する。
論文 参考訳(メタデータ) (2023-05-09T21:03:13Z) - Conformer and Blind Noisy Students for Improved Image Quality Assessment [80.57006406834466]
知覚品質評価(IQA)のための学習ベースアプローチは、通常、知覚品質を正確に測定するために歪んだ画像と参照画像の両方を必要とする。
本研究では,変換器を用いた全参照IQAモデルの性能について検討する。
また,全教師モデルから盲人学生モデルへの半教師付き知識蒸留に基づくIQAの手法を提案する。
論文 参考訳(メタデータ) (2022-04-27T10:21:08Z) - On the Robustness of Quality Measures for GANs [136.18799984346248]
本研究は、インセプションスコア(IS)やFr'echet Inception Distance(FID)のような生成モデルの品質測定の堅牢性を評価する。
このような測度は、加算画素摂動によっても操作可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T06:43:09Z) - Compound Frechet Inception Distance for Quality Assessment of GAN
Created Images [7.628527132779575]
GANの注目すべき応用の1つは、ディープフェイク(deep fakes)として知られる偽の人間の顔を開発することである。
生成された画像の品質を測定することは本質的に主観的だが、標準化されたメトリクスを使って品質を客観化しようとする試みがなされている。
我々は,より広い視覚的欠陥をカバーするために,低レベルの特徴を統合することにより,評価プロセスの堅牢性を向上させることを提案する。
論文 参考訳(メタデータ) (2021-06-16T06:53:27Z) - Improving robustness against common corruptions with frequency biased
models [112.65717928060195]
目に見えない画像の腐敗は 驚くほど大きなパフォーマンス低下を引き起こします
画像の破損タイプは周波数スペクトルで異なる特性を持ち、ターゲットタイプのデータ拡張の恩恵を受けます。
畳み込み特徴マップの総変動(TV)を最小限に抑え、高周波堅牢性を高める新しい正規化方式を提案する。
論文 参考訳(メタデータ) (2021-03-30T10:44:50Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。