論文の概要: Exposing flaws of generative model evaluation metrics and their unfair
treatment of diffusion models
- arxiv url: http://arxiv.org/abs/2306.04675v2
- Date: Mon, 30 Oct 2023 18:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 23:41:06.193019
- Title: Exposing flaws of generative model evaluation metrics and their unfair
treatment of diffusion models
- Title(参考訳): 生成モデル評価指標の欠陥の暴露と拡散モデルの不公平な処理
- Authors: George Stein, Jesse C. Cresswell, Rasa Hosseinzadeh, Yi Sui, Brendan
Leigh Ross, Valentin Villecroze, Zhaoyan Liu, Anthony L. Caterini, J. Eric T.
Taylor, Gabriel Loaiza-Ganem
- Abstract要約: 生成モデルの全体的な性能、忠実度、多様性、希少性、記憶度を評価するための17の現代的な指標を比較した。
ヒトが判断する拡散モデルの最先端の知覚現実性は、FIDのような一般的に報告されている指標には反映されない。
次に、データ記憶の研究を行い、生成モデルは、CIFAR10のような単純で小さなデータセットでトレーニング例を記憶するが、ImageNetのようなより複雑なデータセットでは必ずしも記憶しない。
- 参考スコア(独自算出の注目度): 14.330863905963442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We systematically study a wide variety of generative models spanning
semantically-diverse image datasets to understand and improve the feature
extractors and metrics used to evaluate them. Using best practices in
psychophysics, we measure human perception of image realism for generated
samples by conducting the largest experiment evaluating generative models to
date, and find that no existing metric strongly correlates with human
evaluations. Comparing to 17 modern metrics for evaluating the overall
performance, fidelity, diversity, rarity, and memorization of generative
models, we find that the state-of-the-art perceptual realism of diffusion
models as judged by humans is not reflected in commonly reported metrics such
as FID. This discrepancy is not explained by diversity in generated samples,
though one cause is over-reliance on Inception-V3. We address these flaws
through a study of alternative self-supervised feature extractors, find that
the semantic information encoded by individual networks strongly depends on
their training procedure, and show that DINOv2-ViT-L/14 allows for much richer
evaluation of generative models. Next, we investigate data memorization, and
find that generative models do memorize training examples on simple, smaller
datasets like CIFAR10, but not necessarily on more complex datasets like
ImageNet. However, our experiments show that current metrics do not properly
detect memorization: none in the literature is able to separate memorization
from other phenomena such as underfitting or mode shrinkage. To facilitate
further development of generative models and their evaluation we release all
generated image datasets, human evaluation data, and a modular library to
compute 17 common metrics for 9 different encoders at
https://github.com/layer6ai-labs/dgm-eval.
- Abstract(参考訳): 我々は,セマンティックな画像データセットにまたがる多種多様な生成モデルを体系的に研究し,それらの評価に用いる特徴抽出器と指標を理解し,改善する。
心理物理学におけるベストプラクティスを用いて、生成標本に対する人間のイメージリアリズムの知覚を計測し、これまでで最大の生成モデル評価実験を行い、既存の測定基準が人間の評価と強く相関しないことを見出した。
生成モデルの全体的なパフォーマンス、忠実性、多様性、ラリティ、記憶力を評価するための17の現代的な指標と比較すると、人間によって判断される拡散モデルの最先端の知覚的実在性は、fidのような一般的に報告されている指標には反映されないことが分かる。
この相違は生成標本の多様性によって説明されないが、一つの原因はインセプションV3への過剰依存である。
これらの欠陥に対処するために,個別のネットワークで符号化された意味情報がトレーニング手順に強く依存していることを発見し,DINOv2-ViT-L/14が生成モデルのよりリッチな評価を可能にすることを示す。
次に,生成モデルがcifar10のような単純で小さなデータセットのトレーニング例を記憶しているが,imagenetのような複雑なデータセットでは必ずしもそうではないことを示す。
しかし,本実験では,現在の計測値が記憶を適切に検出できないことを示しており,記憶を不適合やモード縮小といった他の現象と区別することはできない。
生成モデルのさらなる開発と評価を容易にするため、生成した画像データセット、人体評価データ、モジュールライブラリをリリースし、https://github.com/layer6ai-labs/dgm-evalで9つの異なるエンコーダに対して17の共通メトリクスを計算します。
関連論文リスト
- Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences [20.629333587044012]
本研究では,データキュレーションが生成モデルの反復的再学習に与える影響について検討する。
報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
論文 参考訳(メタデータ) (2024-06-12T21:28:28Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - Feature Likelihood Divergence: Evaluating the Generalization of
Generative Models Using Samples [25.657798631897908]
Feature Likelihood Divergenceは、生成モデルの包括的なトリコトミック評価を提供する。
我々は,以前に提案された指標が失敗した場合でも,FLDが過度に適合する問題を識別できることを実証的に示す。
論文 参考訳(メタデータ) (2023-02-09T04:57:27Z) - A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。
本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。
FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文 参考訳(メタデータ) (2022-06-22T09:27:31Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Evaluating the Interpretability of Generative Models by Interactive
Reconstruction [30.441247705313575]
生成モデル表現の人間解釈可能性の定量化を課題とする。
このタスクのパフォーマンスは、ベースラインアプローチよりも、絡み合ったモデルと絡み合ったモデルをはるかに確実に区別する。
論文 参考訳(メタデータ) (2021-02-02T02:38:14Z) - Flow-based Generative Models for Learning Manifold to Manifold Mappings [39.60406116984869]
本稿では,フローベース生成モデルに類似した,多様体値データに対する可逆層を3種類導入する。
配向分布関数の分野の脳画像を確実にかつ正確に再構築できる有望な結果を示します。
論文 参考訳(メタデータ) (2020-12-18T02:19:18Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。