論文の概要: Position: All Current Generative Fidelity and Diversity Metrics are Flawed
- arxiv url: http://arxiv.org/abs/2505.22450v1
- Date: Wed, 28 May 2025 15:10:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.679168
- Title: Position: All Current Generative Fidelity and Diversity Metrics are Flawed
- Title(参考訳): ポジション: 現行のジェネレーティブの忠実度と多様性のメトリクスがすべて不正に
- Authors: Ossi Räisä, Boris van Breugel, Mihaela van der Schaar,
- Abstract要約: 現在のジェネレーティブの忠実度と多様性の指標がすべて欠陥があることを示します。
私たちの目標は、モデルではなく、メトリクスの開発により多くの労力を費やすように研究コミュニティを説得することにあります。
- 参考スコア(独自算出の注目度): 58.815519650465774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Any method's development and practical application is limited by our ability to measure its reliability. The popularity of generative modeling emphasizes the importance of good synthetic data metrics. Unfortunately, previous works have found many failure cases in current metrics, for example lack of outlier robustness and unclear lower and upper bounds. We propose a list of desiderata for synthetic data metrics, and a suite of sanity checks: carefully chosen simple experiments that aim to detect specific and known generative modeling failure modes. Based on these desiderata and the results of our checks, we arrive at our position: all current generative fidelity and diversity metrics are flawed. This significantly hinders practical use of synthetic data. Our aim is to convince the research community to spend more effort in developing metrics, instead of models. Additionally, through analyzing how current metrics fail, we provide practitioners with guidelines on how these metrics should (not) be used.
- Abstract(参考訳): あらゆる手法の開発と実用化は、その信頼性を測定する能力によって制限されます。
生成的モデリングの人気は、優れた合成データメトリクスの重要性を強調している。
残念なことに、以前の研究では、例えば、外向きの堅牢性の欠如や、下限と上限の曖昧さなど、多くの障害ケースが現在のメトリクスで見つかりました。
本稿では,合成データ計測のためのデシラタのリストと,特定の,既知の生成的モデリング失敗モードを検出することを目的とした,慎重に選択された簡易な実験群を提案する。
これらのデシデラタとチェックの結果に基づいて、私たちは私たちの立場に着きました。
これにより、合成データの実用性が著しく低下する。
私たちの目標は、モデルではなく、メトリクスの開発により多くの労力を費やすように研究コミュニティを説得することにあります。
さらに、現在のメトリクスがどのように失敗するかを分析することで、これらのメトリクスをどのように使うべきか(使用しない)かについてのガイドラインを実践者に提供します。
関連論文リスト
- QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。
人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。
本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文 参考訳(メタデータ) (2023-09-19T01:59:54Z) - A Study of Unsupervised Evaluation Metrics for Practical and Automatic
Domain Adaptation [15.728090002818963]
教師なしドメイン適応(UDA)メソッドは、ラベルなしでターゲットドメインへのモデル転送を容易にする。
本稿では,対象の検証ラベルにアクセスすることなく,移動モデルの品質を評価できる評価指標を見つけることを目的とする。
論文 参考訳(メタデータ) (2023-08-01T05:01:05Z) - Feature Likelihood Divergence: Evaluating the Generalization of
Generative Models Using Samples [25.657798631897908]
Feature Likelihood Divergenceは、生成モデルの包括的なトリコトミック評価を提供する。
我々は,以前に提案された指標が失敗した場合でも,FLDが過度に適合する問題を識別できることを実証的に示す。
論文 参考訳(メタデータ) (2023-02-09T04:57:27Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。
本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。
FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文 参考訳(メタデータ) (2022-06-22T09:27:31Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。