Fugu-MT 論文翻訳(概要): Rethinking FID: Towards a Better Evaluation Metric for Image Generation

論文の概要: Rethinking FID: Towards a Better Evaluation Metric for Image Generation

arxiv url: http://arxiv.org/abs/2401.09603v2
Date: Thu, 25 Jan 2024 22:22:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-29 17:11:35.667651
Title: Rethinking FID: Towards a Better Evaluation Metric for Image Generation
Title（参考訳）: FIDの再考:画像生成のためのより良い評価基準を目指して
Authors: Sadeep Jayasumana, Srikumar Ramalingam, Andreas Veit, Daniel Glasner, Ayan Chakrabarti, Sanjiv Kumar
Abstract要約: Inception Distanceは、実画像のInception-v3特徴分布とアルゴリズムによって生成された画像の距離を推定する。インセプションの貧弱な表現は、現代のテキスト・画像モデルによって生成されるリッチで多様なコンテンツ、不正確な正規性仮定、そしてサンプルの複雑さによって引き起こされる。よりリッチなCLIP埋め込みとガウスRBFカーネルとの最大平均差距離に基づく代替のCMMDを提案する。
参考スコア（独自算出の注目度）: 43.66036053597747
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: As with many machine learning problems, the progress of image generation methods hinges on good evaluation metrics. One of the most popular is the Frechet Inception Distance (FID). FID estimates the distance between a distribution of Inception-v3 features of real images, and those of images generated by the algorithm. We highlight important drawbacks of FID: Inception's poor representation of the rich and varied content generated by modern text-to-image models, incorrect normality assumptions, and poor sample complexity. We call for a reevaluation of FID's use as the primary quality metric for generated images. We empirically demonstrate that FID contradicts human raters, it does not reflect gradual improvement of iterative text-to-image models, it does not capture distortion levels, and that it produces inconsistent results when varying the sample size. We also propose an alternative new metric, CMMD, based on richer CLIP embeddings and the maximum mean discrepancy distance with the Gaussian RBF kernel. It is an unbiased estimator that does not make any assumptions on the probability distribution of the embeddings and is sample efficient. Through extensive experiments and analysis, we demonstrate that FID-based evaluations of text-to-image models may be unreliable, and that CMMD offers a more robust and reliable assessment of image quality.
Abstract（参考訳）: 多くの機械学習の問題と同様に、画像生成手法の進歩は良い評価基準にかかっている。最も人気のあるものはFrechet Inception Distance (FID)である。 fidは実画像のインセプションv3特徴の分布とアルゴリズムによって生成された画像との距離を推定する。インセプションの貧弱な表現は、現代のテキスト・画像モデルによって生成されるリッチで多様なコンテンツ、不正確な正規性仮定、そしてサンプルの複雑さによって引き起こされる。我々は、FIDを生成画像の一次品質指標として用いることの再評価を求める。実験により,FIDは人間のレーダと矛盾し,反復的テキスト・画像モデルの段階的改善を反映せず,歪みレベルを捉えず,サンプルサイズが変化しても矛盾しない結果が得られた。また,よりリッチなクリップ埋め込みとガウス rbf カーネルとの最大平均偏差距離に基づく新しいメトリック cmmd を提案する。埋め込みの確率分布を仮定せず、サンプル効率も良い偏りのない推定器である。広範な実験と分析を通じて,fidに基づく画像間モデルの評価は信頼性が低く,cmmdは画像品質をより堅牢で信頼性の高い評価ができることを示す。

関連論文リスト

Diversity over Uniformity: Rethinking Representation in Generated Image Detection [22.020742109848317]
我々は、確実に生成された画像検出は、単一の決定経路に依存するのではなく、複数の判断視点を維持するべきであると論じている。本稿では,タスク非関係なコンポーネントをフィルタし,表現空間における様々なフォージェリーキュー間の過剰なオーバーラップを抑えるアンチファイン・コラプス学習フレームワークを提案する。この設計は、モデル内で多様な補完的な証拠を維持し、小さな敬意的な手がかりへの依存を減らし、目に見えない生成条件下で堅牢性を高める。
論文参考訳（メタデータ） (2026-02-28T15:42:12Z)
Prototypicality Bias Reveals Blindspots in Multimodal Evaluation Metrics [25.374192139098284]
マルチモーダル評価において,システム障害モードとしての原形質バイアスについて検討する。我々は、動物、オブジェクト、デモグラフィー画像にまたがる対照ベンチマークProtoBiasを導入する。以上の結果から,CLIPScore,PickScore,VQAベースのスコアなど,広く使用されているメトリクスが,これらのペアを誤用していることが判明した。本稿では, 故障率を大幅に低減し, 誤判定を抑える, 頑健な7BパラメータであるProtoScoreを提案する。
論文参考訳（メタデータ） (2026-01-08T13:49:14Z)
A Meaningful Perturbation Metric for Evaluating Explainability Methods [55.09730499143998]
本稿では,画像生成モデルを用いて標的摂動を行う新しい手法を提案する。具体的には,画像の忠実さを保ちながら,入力画像の高関連画素のみを塗布し,モデルの予測を変更することに焦点を当てる。これは、しばしばアウト・オブ・ディストリビューションの修正を生み出し、信頼できない結果をもたらす既存のアプローチとは対照的である。
論文参考訳（メタデータ） (2025-04-09T11:46:41Z)
RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。 RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文参考訳（メタデータ） (2024-05-30T14:49:54Z)
Uncertainty Quantification via Neural Posterior Principal Components [26.26693707762823]
不確実性定量化は、画像復元モデルの安全クリティカルドメインへの展開に不可欠である。本稿では,入力画像の後方分布のPCをニューラルネットワークの単一前方通過で予測する手法を提案する。提案手法は, インスタンス適応型不確実性方向を確実に伝達し, 後部サンプリングに匹敵する不確実性定量化を実現する。
論文参考訳（メタデータ） (2023-09-27T09:51:29Z)
On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。 IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文参考訳（メタデータ） (2023-09-26T08:32:55Z)
Improving Adversarial Robustness of Masked Autoencoders via Test-time Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文参考訳（メタデータ） (2023-08-20T16:27:17Z)
Learning from Multi-Perception Features for Real-Word Image Super-resolution [87.71135803794519]
入力画像の複数の知覚的特徴を利用する新しいSR手法MPF-Netを提案する。本稿では,MPFEモジュールを組み込んで,多様な知覚情報を抽出する手法を提案する。また、モデルの学習能力を向上する対照的な正規化項(CR)も導入する。
論文参考訳（メタデータ） (2023-05-26T07:35:49Z)
Deblurring via Stochastic Refinement [85.42730934561101]
条件付き拡散モデルに基づくブラインドデブロアリングのための代替フレームワークを提案する。提案手法は,PSNRなどの歪み指標の点で競合する。
論文参考訳（メタデータ） (2021-12-05T04:36:09Z)
Robustness via Uncertainty-aware Cycle Consistency [44.34422859532988]
非ペア画像-画像間の変換とは、対応する画像対を使わずに画像間マッピングを学習することを指す。既存の手法は、外乱や予測の不確実性にロバスト性を明示的にモデル化することなく決定論的マッピングを学習する。不確実性を考慮した一般化適応サイクル一貫性(UGAC)に基づく新しい確率的手法を提案する。
論文参考訳（メタデータ） (2021-10-24T15:33:21Z)
Compound Frechet Inception Distance for Quality Assessment of GAN Created Images [7.628527132779575]
GANの注目すべき応用の1つは、ディープフェイク(deep fakes)として知られる偽の人間の顔を開発することである。生成された画像の品質を測定することは本質的に主観的だが、標準化されたメトリクスを使って品質を客観化しようとする試みがなされている。我々は,より広い視覚的欠陥をカバーするために,低レベルの特徴を統合することにより,評価プロセスの堅牢性を向上させることを提案する。
論文参考訳（メタデータ） (2021-06-16T06:53:27Z)
Same Same But DifferNet: Semi-Supervised Defect Detection with Normalizing Flows [24.734388664558708]
畳み込みニューラルネットワークによって抽出された特徴の記述性を利用して、その密度を推定する。これらの可能性に基づいて、欠陥を示すスコアリング関数を開発する。本稿では,新しいMVTec ADとMagnetic Tile Defectsデータセットに対する既存のアプローチよりも優れた性能を示す。
論文参考訳（メタデータ） (2020-08-28T10:49:28Z)
Reliable Fidelity and Diversity Metrics for Generative Models [30.941563781926202]
Fr'echet Inception Distance (FID)スコアは、Fr'echet Inception Distance(FID)スコアである。最新の精度とリコール基準でさえまだ信頼性が低いことを示す。上記の問題を解決するための密度とカバレッジの指標を提案する。
論文参考訳（メタデータ） (2020-02-23T00:50:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。