論文の概要: Rethinking FID: Towards a Better Evaluation Metric for Image Generation
- arxiv url: http://arxiv.org/abs/2401.09603v2
- Date: Thu, 25 Jan 2024 22:22:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 17:11:35.667651
- Title: Rethinking FID: Towards a Better Evaluation Metric for Image Generation
- Title(参考訳): FIDの再考:画像生成のためのより良い評価基準を目指して
- Authors: Sadeep Jayasumana, Srikumar Ramalingam, Andreas Veit, Daniel Glasner,
Ayan Chakrabarti, Sanjiv Kumar
- Abstract要約: Inception Distanceは、実画像のInception-v3特徴分布とアルゴリズムによって生成された画像の距離を推定する。
インセプションの貧弱な表現は、現代のテキスト・画像モデルによって生成されるリッチで多様なコンテンツ、不正確な正規性仮定、そしてサンプルの複雑さによって引き起こされる。
よりリッチなCLIP埋め込みとガウスRBFカーネルとの最大平均差距離に基づく代替のCMMDを提案する。
- 参考スコア(独自算出の注目度): 43.66036053597747
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As with many machine learning problems, the progress of image generation
methods hinges on good evaluation metrics. One of the most popular is the
Frechet Inception Distance (FID). FID estimates the distance between a
distribution of Inception-v3 features of real images, and those of images
generated by the algorithm. We highlight important drawbacks of FID:
Inception's poor representation of the rich and varied content generated by
modern text-to-image models, incorrect normality assumptions, and poor sample
complexity. We call for a reevaluation of FID's use as the primary quality
metric for generated images. We empirically demonstrate that FID contradicts
human raters, it does not reflect gradual improvement of iterative
text-to-image models, it does not capture distortion levels, and that it
produces inconsistent results when varying the sample size. We also propose an
alternative new metric, CMMD, based on richer CLIP embeddings and the maximum
mean discrepancy distance with the Gaussian RBF kernel. It is an unbiased
estimator that does not make any assumptions on the probability distribution of
the embeddings and is sample efficient. Through extensive experiments and
analysis, we demonstrate that FID-based evaluations of text-to-image models may
be unreliable, and that CMMD offers a more robust and reliable assessment of
image quality.
- Abstract(参考訳): 多くの機械学習の問題と同様に、画像生成手法の進歩は良い評価基準にかかっている。
最も人気のあるものはFrechet Inception Distance (FID)である。
fidは実画像のインセプションv3特徴の分布とアルゴリズムによって生成された画像との距離を推定する。
インセプションの貧弱な表現は、現代のテキスト・画像モデルによって生成されるリッチで多様なコンテンツ、不正確な正規性仮定、そしてサンプルの複雑さによって引き起こされる。
我々は、FIDを生成画像の一次品質指標として用いることの再評価を求める。
実験により,FIDは人間のレーダと矛盾し,反復的テキスト・画像モデルの段階的改善を反映せず,歪みレベルを捉えず,サンプルサイズが変化しても矛盾しない結果が得られた。
また,よりリッチなクリップ埋め込みとガウス rbf カーネルとの最大平均偏差距離に基づく新しいメトリック cmmd を提案する。
埋め込みの確率分布を仮定せず、サンプル効率も良い偏りのない推定器である。
広範な実験と分析を通じて,fidに基づく画像間モデルの評価は信頼性が低く,cmmdは画像品質をより堅牢で信頼性の高い評価ができることを示す。
関連論文リスト
- RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z) - Uncertainty Quantification via Neural Posterior Principal Components [26.26693707762823]
不確実性定量化は、画像復元モデルの安全クリティカルドメインへの展開に不可欠である。
本稿では,入力画像の後方分布のPCをニューラルネットワークの単一前方通過で予測する手法を提案する。
提案手法は, インスタンス適応型不確実性方向を確実に伝達し, 後部サンプリングに匹敵する不確実性定量化を実現する。
論文 参考訳(メタデータ) (2023-09-27T09:51:29Z) - On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。
我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。
このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文 参考訳(メタデータ) (2023-09-26T08:32:55Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z) - Learning from Multi-Perception Features for Real-Word Image
Super-resolution [87.71135803794519]
入力画像の複数の知覚的特徴を利用する新しいSR手法MPF-Netを提案する。
本稿では,MPFEモジュールを組み込んで,多様な知覚情報を抽出する手法を提案する。
また、モデルの学習能力を向上する対照的な正規化項(CR)も導入する。
論文 参考訳(メタデータ) (2023-05-26T07:35:49Z) - Deblurring via Stochastic Refinement [85.42730934561101]
条件付き拡散モデルに基づくブラインドデブロアリングのための代替フレームワークを提案する。
提案手法は,PSNRなどの歪み指標の点で競合する。
論文 参考訳(メタデータ) (2021-12-05T04:36:09Z) - Robustness via Uncertainty-aware Cycle Consistency [44.34422859532988]
非ペア画像-画像間の変換とは、対応する画像対を使わずに画像間マッピングを学習することを指す。
既存の手法は、外乱や予測の不確実性にロバスト性を明示的にモデル化することなく決定論的マッピングを学習する。
不確実性を考慮した一般化適応サイクル一貫性(UGAC)に基づく新しい確率的手法を提案する。
論文 参考訳(メタデータ) (2021-10-24T15:33:21Z) - Compound Frechet Inception Distance for Quality Assessment of GAN
Created Images [7.628527132779575]
GANの注目すべき応用の1つは、ディープフェイク(deep fakes)として知られる偽の人間の顔を開発することである。
生成された画像の品質を測定することは本質的に主観的だが、標準化されたメトリクスを使って品質を客観化しようとする試みがなされている。
我々は,より広い視覚的欠陥をカバーするために,低レベルの特徴を統合することにより,評価プロセスの堅牢性を向上させることを提案する。
論文 参考訳(メタデータ) (2021-06-16T06:53:27Z) - Same Same But DifferNet: Semi-Supervised Defect Detection with
Normalizing Flows [24.734388664558708]
畳み込みニューラルネットワークによって抽出された特徴の記述性を利用して、その密度を推定する。
これらの可能性に基づいて、欠陥を示すスコアリング関数を開発する。
本稿では,新しいMVTec ADとMagnetic Tile Defectsデータセットに対する既存のアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-28T10:49:28Z) - Reliable Fidelity and Diversity Metrics for Generative Models [30.941563781926202]
Fr'echet Inception Distance (FID)スコアは、Fr'echet Inception Distance(FID)スコアである。
最新の精度とリコール基準でさえまだ信頼性が低いことを示す。
上記の問題を解決するための密度とカバレッジの指標を提案する。
論文 参考訳(メタデータ) (2020-02-23T00:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。