論文の概要: Exposing flaws of generative model evaluation metrics and their unfair
treatment of diffusion models
- arxiv url: http://arxiv.org/abs/2306.04675v1
- Date: Wed, 7 Jun 2023 18:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 18:11:25.792315
- Title: Exposing flaws of generative model evaluation metrics and their unfair
treatment of diffusion models
- Title(参考訳): 生成モデル評価指標の欠陥の暴露と拡散モデルの不公平な処理
- Authors: George Stein, Jesse C. Cresswell, Rasa Hosseinzadeh, Yi Sui, Brendan
Leigh Ross, Valentin Villecroze, Zhaoyan Liu, Anthony L. Caterini, J. Eric T.
Taylor, Gabriel Loaiza-Ganem
- Abstract要約: 生成モデルの全体的な性能,忠実度,多様性,記憶度を評価するための16の現代的な指標を比較した。
ヒトが判断する拡散モデルの最先端の知覚現実性は、FIDのような一般的に報告されている指標には反映されない。
次に、データ記憶の研究を行い、生成モデルは、CIFAR10のような単純で小さなデータセットでトレーニング例を記憶するが、ImageNetのようなより複雑なデータセットでは必ずしも記憶しない。
- 参考スコア(独自算出の注目度): 8.98728077346837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We systematically study a wide variety of image-based generative models
spanning semantically-diverse datasets to understand and improve the feature
extractors and metrics used to evaluate them. Using best practices in
psychophysics, we measure human perception of image realism for generated
samples by conducting the largest experiment evaluating generative models to
date, and find that no existing metric strongly correlates with human
evaluations. Comparing to 16 modern metrics for evaluating the overall
performance, fidelity, diversity, and memorization of generative models, we
find that the state-of-the-art perceptual realism of diffusion models as judged
by humans is not reflected in commonly reported metrics such as FID. This
discrepancy is not explained by diversity in generated samples, though one
cause is over-reliance on Inception-V3. We address these flaws through a study
of alternative self-supervised feature extractors, find that the semantic
information encoded by individual networks strongly depends on their training
procedure, and show that DINOv2-ViT-L/14 allows for much richer evaluation of
generative models. Next, we investigate data memorization, and find that
generative models do memorize training examples on simple, smaller datasets
like CIFAR10, but not necessarily on more complex datasets like ImageNet.
However, our experiments show that current metrics do not properly detect
memorization; none in the literature is able to separate memorization from
other phenomena such as underfitting or mode shrinkage. To facilitate further
development of generative models and their evaluation we release all generated
image datasets, human evaluation data, and a modular library to compute 16
common metrics for 8 different encoders at
https://github.com/layer6ai-labs/dgm-eval.
- Abstract(参考訳): 本研究では,多種多様なデータセットにまたがる多種多様な画像ベース生成モデルを体系的に研究し,特徴抽出器と評価指標の理解と改良を行う。
心理物理学におけるベストプラクティスを用いて、生成標本に対する人間のイメージリアリズムの知覚を計測し、これまでで最大の生成モデル評価実験を行い、既存の測定基準が人間の評価と強く相関しないことを見出した。
生成モデルの全体的な性能,忠実度,多様性,記憶度を評価するための16の現代的な指標と比較して,人間の判断による拡散モデルの最先端の知覚的現実性は,FIDなどの一般的に報告されている指標に反映されない。
この相違は生成標本の多様性によって説明されないが、一つの原因はインセプションV3への過剰依存である。
これらの欠陥に対処するために,個別のネットワークで符号化された意味情報がトレーニング手順に強く依存していることを発見し,DINOv2-ViT-L/14が生成モデルのよりリッチな評価を可能にすることを示す。
次に,生成モデルがcifar10のような単純で小さなデータセットのトレーニング例を記憶しているが,imagenetのような複雑なデータセットでは必ずしもそうではないことを示す。
しかし,本実験では,現在の計測値が正しく記憶を検出できないこと,不適合やモード縮小といった他の現象と記憶を区別できないこと,などが示されている。
生成モデルのさらなる開発と評価を容易にするため、生成した画像データセット、人体評価データ、モジュールライブラリをリリースし、https://github.com/layer6ai-labs/dgm-evalで8種類のエンコーダに対して16の共通メトリクスを計算する。
関連論文リスト
- Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences [20.629333587044012]
本研究では,データキュレーションが生成モデルの反復的再学習に与える影響について検討する。
報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
論文 参考訳(メタデータ) (2024-06-12T21:28:28Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - Feature Likelihood Divergence: Evaluating the Generalization of
Generative Models Using Samples [25.657798631897908]
Feature Likelihood Divergenceは、生成モデルの包括的なトリコトミック評価を提供する。
我々は,以前に提案された指標が失敗した場合でも,FLDが過度に適合する問題を識別できることを実証的に示す。
論文 参考訳(メタデータ) (2023-02-09T04:57:27Z) - A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。
本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。
FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文 参考訳(メタデータ) (2022-06-22T09:27:31Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Evaluating the Interpretability of Generative Models by Interactive
Reconstruction [30.441247705313575]
生成モデル表現の人間解釈可能性の定量化を課題とする。
このタスクのパフォーマンスは、ベースラインアプローチよりも、絡み合ったモデルと絡み合ったモデルをはるかに確実に区別する。
論文 参考訳(メタデータ) (2021-02-02T02:38:14Z) - Flow-based Generative Models for Learning Manifold to Manifold Mappings [39.60406116984869]
本稿では,フローベース生成モデルに類似した,多様体値データに対する可逆層を3種類導入する。
配向分布関数の分野の脳画像を確実にかつ正確に再構築できる有望な結果を示します。
論文 参考訳(メタデータ) (2020-12-18T02:19:18Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。