論文の概要: Analysis and Comparison of Classification Metrics
- arxiv url: http://arxiv.org/abs/2209.05355v1
- Date: Mon, 12 Sep 2022 16:06:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 12:34:09.257339
- Title: Analysis and Comparison of Classification Metrics
- Title(参考訳): 分類基準の分析と比較
- Authors: Luciana Ferrer
- Abstract要約: 予測コスト (EC) は、あらゆる統計学習コースで導入された指標であるが、機械学習の文献ではほとんど使われない。
ECはFスコアやMCCよりも優れており、ECはそれらよりも優れており、より一般的で、シンプルで、直感的で、動機のよいものである、と論じている。
この写本の現在のバージョンでは説明されていないが、ハードな決定によって計算されるメトリクスのみに焦点を当てているため、ECはシステムのスコアのキャリブレーションを計測する優れたツールとして、各クラスの後方セットが与えられたときに最適な決定をすることができるという利点がある。
- 参考スコア(独自算出の注目度): 10.607177634432214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A number of different performance metrics are commonly used in the machine
learning literature for classification systems that output categorical
decisions. Some of the most common ones are accuracy, total error (one minus
accuracy), balanced accuracy, balanced total error (one minus balanced
accuracy), F-score, and Matthews correlation coefficient (MCC). In this
document, we review the definition of these metrics and compare them with the
expected cost (EC), a metric introduced in every statistical learning course
but rarely used in the machine learning literature. We show that the empirical
estimate of the EC is a generalized version of both the total error and
balanced total error. Further, we show its relation with F-score and MCC and
argue that EC is superior to them, being more general, simpler, intuitive and
well motivated. We highlight some issues with the F-score and the MCC that make
them suboptimal metrics. While not explained in the current version of this
manuscript, where we focus exclusively on metrics that are computed over hard
decisions, the EC has the additional advantage of being a great tool to measure
calibration of a system's scores and allows users to make optimal decisions
given a set of posteriors for each class. We leave that discussion for a future
version of this manuscript.
- Abstract(参考訳): さまざまなパフォーマンス指標が、分類決定を出力する分類システムのための機械学習文献で一般的に使用されている。
最も一般的なものは、精度、総誤差(1マイナスの精度)、バランスの取れた精度、総誤差(1マイナスのバランスの取れた精度)、Fスコア、マシューズ相関係数(MCC)である。
本稿では,これらの指標の定義を,すべての統計学習コースで導入されているが機械学習文献では滅多に用いられていない期待コスト(ec)と比較する。
本稿では,ECの実証的推定が総誤差と総誤差のバランスの両面の一般化版であることを示す。
さらに,f-score と mcc との関係を示し,ec の方がより汎用的で,シンプルで直感的で,モチベーションの高い ec よりも優れていると主張する。
我々は、f-score と mcc のサブ最適メトリクスとなるいくつかの問題を強調する。
ハードな決定よりも計算されるメトリクスのみに焦点を当てた現在のバージョンでは説明されていないが、ecはシステムのスコアのキャリブレーションを計測するための優れたツールであり、各クラスに対して最適な決定を下すことができるという、追加の利点がある。
私たちはその議論をこの原稿の将来版に残します。
関連論文リスト
- Comprehensive Equity Index (CEI): Definition and Application to Bias Evaluation in Biometrics [47.762333925222926]
本稿では,機械学習モデルのバイアス行動の定量化のための新しい指標を提案する。
顔認識システムの運用評価に焦点をあて,適用する。
論文 参考訳(メタデータ) (2024-09-03T14:19:38Z) - Evaluating Posterior Probabilities: Decision Theory, Proper Scoring Rules, and Calibration [10.604555099281173]
キャリブレーション指標は, 後部品質評価には何の役割も果たさない。
予測PSRの分解から得られたキャリブレーション損失と呼ばれる簡易かつ実用的なキャリブレーション指標について論じる。
論文 参考訳(メタデータ) (2024-08-05T21:35:51Z) - $F_β$-plot -- a visual tool for evaluating imbalanced data classifiers [0.0]
本稿では、一般的なパラメトリック計量である$F_beta$を分析するための簡単なアプローチを提案する。
分析された分類器のプールに対して、あるモデルがユーザの要求に応じて好まれるべき場合を示すことができる。
論文 参考訳(メタデータ) (2024-04-11T18:07:57Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - What is Your Metric Telling You? Evaluating Classifier Calibration under
Context-Specific Definitions of Reliability [6.510061176722249]
我々は、キャリブレーション誤差を正確に測定する、より表現力のあるメトリクスを開発する必要があると論じる。
信頼性の異なる定義の下でキャリブレーション誤差を測定するために,期待誤差(ECE)の一般化を用いる。
1) 予測クラスのみに焦点をあてたECEの定義は,信頼性の実際的有用な定義の選択の下でキャリブレーション誤差を正確に測定することができず,2) 多くの一般的なキャリブレーション手法は,ECEメトリクス全体でキャリブレーション性能を均一に改善することができない。
論文 参考訳(メタデータ) (2022-05-23T16:45:02Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - The statistical advantage of automatic NLG metrics at the system level [10.540821585237222]
統計的には、人間は偏りがなく、高分散推定器であり、メトリクスは偏りがあり、低分散推定器である。
ブートストラップを用いて、これらの推定器の誤差をペアワイズ予測(どの生成システムが優れているか?)で比較する。
分析では,測定値の補正誤差を人間と完全セグメントレベルのアノテータと比較した。
論文 参考訳(メタデータ) (2021-05-26T09:53:57Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。