Fugu-MT 論文翻訳(概要): Feature Likelihood Score: Evaluating Generalization of Generative Models Using Samples

論文の概要: Feature Likelihood Score: Evaluating Generalization of Generative Models Using Samples

arxiv url: http://arxiv.org/abs/2302.04440v1
Date: Thu, 9 Feb 2023 04:57:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-10 16:46:59.677927
Title: Feature Likelihood Score: Evaluating Generalization of Generative Models Using Samples
Title（参考訳）: 特徴度スコア:標本を用いた生成モデルの一般化評価
Authors: Marco Jiralerspong, Avishek Joey Bose, Gauthier Gidel
Abstract要約: Feature Likelihood Score (FLS) は、密度推定を用いて生成されたサンプルの品質/多様性を測定するパラメトリックなサンプルベースのスコアである。我々は、以前提案されたメトリクスが失敗しても、FLSが特定の過度な問題ケースを特定する能力を実証的に実証する。その結果, FLSはFIDなどの従来の指標の直感と一致し, 生成モデルのより総合的な評価が可能であることがわかった。
参考スコア（独自算出の注目度）: 17.26777613112763
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep generative models have demonstrated the ability to generate complex, high-dimensional, and photo-realistic data. However, a unified framework for evaluating different generative modeling families remains a challenge. Indeed, likelihood-based metrics do not apply in many cases while pure sample-based metrics such as FID fail to capture known failure modes such as overfitting on training data. In this work, we introduce the Feature Likelihood Score (FLS), a parametric sample-based score that uses density estimation to quantitatively measure the quality/diversity of generated samples while taking into account overfitting. We empirically demonstrate the ability of FLS to identify specific overfitting problem cases, even when previously proposed metrics fail. We further perform an extensive experimental evaluation on various image datasets and model classes. Our results indicate that FLS matches intuitions of previous metrics, such as FID, while providing a more holistic evaluation of generative models that highlights models whose generalization abilities are under or overappreciated. Code for computing FLS is provided at https://github.com/marcojira/fls
Abstract（参考訳）: 深層生成モデルは、複雑、高次元、フォトリアリスティックなデータを生成する能力を示した。しかし、異なる生成モデリングファミリーを評価するための統一的なフレームワークは依然として課題である。 FIDのような純粋なサンプルベースのメトリクスは、トレーニングデータに過度に適合するような既知の障害モードをキャプチャできない。そこで,本研究では,密度推定を用いて生成した試料の質・多様性を定量的に測定するパラメトリック・サンプルベーススコアであるfeature likelihood score(fls)を提案する。我々は、以前提案されたメトリクスが失敗しても、FLSが特定の過度な問題ケースを特定する能力を実証的に実証する。さらに,様々な画像データセットとモデルクラスについて,広範な実験評価を行う。以上の結果から, FLSはFIDなどの従来の指標の直観と一致し, 一般化能力の低いモデルや過度に評価されたモデルに注目する生成モデルのより包括的評価を提供する。 FLSの計算コードはhttps://github.com/marcojira/flsで提供されている。

関連論文リスト

Position: All Current Generative Fidelity and Diversity Metrics are Flawed [58.815519650465774]
現在のジェネレーティブの忠実度と多様性の指標がすべて欠陥があることを示します。私たちの目標は、モデルではなく、メトリクスの開発により多くの労力を費やすように研究コミュニティを説得することにあります。
論文参考訳（メタデータ） (2025-05-28T15:10:33Z)
Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels [64.94853276821992]
大規模マルチモーダルモデル(LMM)は、様々なアプリケーションにまたがってますます展開されている。従来の評価方法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存している。ソフトマックス確率などの不確実性信号を利用したLMMの教師なしモデルランキングについて検討する。
論文参考訳（メタデータ） (2024-12-09T13:05:43Z)
MeLIAD: Interpretable Few-Shot Anomaly Detection with Metric Learning and Entropy-based Scoring [2.394081903745099]
本稿では,新たな異常検出手法であるMeLIADを提案する。 MeLIADはメートル法学習に基づいており、真の異常の事前分布仮定に頼ることなく、設計による解釈可能性を達成する。解釈可能性の定量的かつ定性的な評価を含む5つの公開ベンチマークデータセットの実験は、MeLIADが異常検出とローカライゼーション性能の改善を達成することを実証している。
論文参考訳（メタデータ） (2024-09-20T16:01:43Z)
Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。 SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文参考訳（メタデータ） (2023-08-08T16:41:16Z)
Exposing flaws of generative model evaluation metrics and their unfair treatment of diffusion models [14.330863905963442]
生成モデルの全体的な性能、忠実度、多様性、希少性、記憶度を評価するための17の現代的な指標を比較した。ヒトが判断する拡散モデルの最先端の知覚現実性は、FIDのような一般的に報告されている指標には反映されない。次に、データ記憶の研究を行い、生成モデルは、CIFAR10のような単純で小さなデータセットでトレーニング例を記憶するが、ImageNetのようなより複雑なデータセットでは必ずしも記憶しない。
論文参考訳（メタデータ） (2023-06-07T18:00:00Z)
A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。 FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文参考訳（メタデータ） (2022-06-22T09:27:31Z)
Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。 CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文参考訳（メタデータ） (2021-05-18T15:13:00Z)
How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文参考訳（メタデータ） (2021-02-17T18:25:30Z)
Evaluating the Disentanglement of Deep Generative Models through Manifold Topology [66.06153115971732]
本稿では,生成モデルのみを用いた乱れの定量化手法を提案する。複数のデータセットにまたがるいくつかの最先端モデルを実証的に評価する。
論文参考訳（メタデータ） (2020-06-05T20:54:11Z)
Evaluation Metrics for Conditional Image Generation [100.69766435176557]
クラス条件画像生成設定において生成モデルを評価するための2つの新しい指標を提案する。理論的分析は、提案されたメトリクスの背景にあるモチベーションを示し、新しいメトリクスと条件のないメトリクスを結びつける。我々は,実験的な評価を行い,その指標を条件のない変種や他の指標と比較し,既存の生成モデルの解析に利用した。
論文参考訳（メタデータ） (2020-04-26T12:15:16Z)
Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。 4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文参考訳（メタデータ） (2020-02-27T10:22:17Z)
Towards GAN Benchmarks Which Require Generalization [48.075521136623564]
関数を推定するにはモデルからの大きなサンプルが必要であると我々は主張する。我々は、分布を区別するために訓練されたニューラルネットワークの用語で定義されるニューラルネットワーク分散(NND)に目を向ける。結果として得られたベンチマークは、トレーニングセットの記憶によって"ウォン"することはできないが、それでも知覚的に相関があり、サンプルからのみ計算可能である。
論文参考訳（メタデータ） (2020-01-10T20:18:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。