論文の概要: A critical analysis of metrics used for measuring progress in artificial
intelligence
- arxiv url: http://arxiv.org/abs/2008.02577v2
- Date: Mon, 8 Nov 2021 14:38:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 06:35:05.790944
- Title: A critical analysis of metrics used for measuring progress in artificial
intelligence
- Title(参考訳): 人工知能の進歩を測定するための指標の批判的分析
- Authors: Kathrin Blagec, Georg Dorffner, Milad Moradi, Matthias Samwald
- Abstract要約: 我々は、3867の機械学習モデルのパフォーマンス結果をカバーするデータに基づいて、現在のパフォーマンス指標の状況を分析する。
結果から、現在使用されているメトリクスの大部分は、モデルの性能の不十分なリフレクションをもたらす可能性のある特性を持っていることが示唆される。
報告された指標の曖昧さを記述し、モデル性能の解釈と比較が困難になる可能性がある。
- 参考スコア(独自算出の注目度): 9.387811897655016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comparing model performances on benchmark datasets is an integral part of
measuring and driving progress in artificial intelligence. A model's
performance on a benchmark dataset is commonly assessed based on a single or a
small set of performance metrics. While this enables quick comparisons, it may
entail the risk of inadequately reflecting model performance if the metric does
not sufficiently cover all performance characteristics. It is unknown to what
extent this might impact benchmarking efforts.
To address this question, we analysed the current landscape of performance
metrics based on data covering 3867 machine learning model performance results
from the open repository 'Papers with Code'. Our results suggest that the large
majority of metrics currently used have properties that may result in an
inadequate reflection of a models' performance. While alternative metrics that
address problematic properties have been proposed, they are currently rarely
used.
Furthermore, we describe ambiguities in reported metrics, which may lead to
difficulties in interpreting and comparing model performances.
- Abstract(参考訳): ベンチマークデータセットにおけるモデルパフォーマンスの比較は、人工知能の進歩を測定する上で不可欠な部分である。
ベンチマークデータセットにおけるモデルのパフォーマンスは、通常、単一のまたは小さなパフォーマンス指標に基づいて評価される。
これは迅速な比較を可能にするが、メトリックが全ての性能特性を十分にカバーしていない場合、モデル性能を不適切に反映するリスクが伴う。
これがベンチマーク作業にどの程度影響するかは不明だ。
この問題に対処するために、オープンリポジトリの'papers with code'から3867の機械学習モデルのパフォーマンス結果をカバーするデータに基づいて、パフォーマンスメトリクスの現在の状況を分析した。
この結果から,現在使用されている指標の大部分は,モデルの性能を不適切に反映する特性を持っていることが示唆された。
問題のあるプロパティに対処する代替メトリクスが提案されているが、現時点ではほとんど使われていない。
さらに,報告されたメトリクスの曖昧性について述べることで,モデル性能の解釈と比較が困難になる可能性がある。
関連論文リスト
- Test-time Assessment of a Model's Performance on Unseen Domains via Optimal Transport [8.425690424016986]
テスト時に見えないドメインのデータに対して、MLモデルのパフォーマンスを評価することが不可欠です。
テスト時にモデルのパフォーマンスを洞察できるメトリクスを開発することが不可欠です。
本稿では,未知領域におけるモデルの性能と高い相関関係を持つ最適輸送量に基づく計量を提案する。
論文 参考訳(メタデータ) (2024-05-02T16:35:07Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。
本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。
FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文 参考訳(メタデータ) (2022-06-22T09:27:31Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - A global analysis of metrics used for measuring performance in natural
language processing [9.433496814327086]
自然言語処理の性能測定に使用されるメトリクスの,最初の大規模断面積解析を行う。
結果から,現在使用されている自然言語処理メトリクスの大部分は,モデルの性能を不適切に反映する特性を持っていることが示唆された。
論文 参考訳(メタデータ) (2022-04-25T11:41:50Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - Interpretable Meta-Measure for Model Performance [4.91155110560629]
Elo-based Predictive Power (EPP) と呼ばれる新しいメタスコアアセスメントを導入する。
EPPは、他のパフォーマンス指標の上に構築されており、モデルの解釈可能な比較を可能にする。
本研究では,EPPの数学的特性を証明し,30の分類データセット上の大規模ベンチマークと実世界のビジュアルデータに対するベンチマークを実証的に支援する。
論文 参考訳(メタデータ) (2020-06-02T14:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。