論文の概要: Analysis and Comparison of Classification Metrics
- arxiv url: http://arxiv.org/abs/2209.05355v3
- Date: Wed, 14 Jun 2023 21:41:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 03:44:57.679432
- Title: Analysis and Comparison of Classification Metrics
- Title(参考訳): 分類基準の分析と比較
- Authors: Luciana Ferrer
- Abstract要約: システムスコアの測定基準には、ROC曲線下の領域、等誤差率、クロスエントロピー、ブライアスコア、ベイズECまたはベイズリスクが含まれる。
本稿では,これらの指標を用いてシステムのキャリブレーション損失を計算し,標準的なキャリブレーション誤差と比較する。
- 参考スコア(独自算出の注目度): 10.607177634432214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A variety of different performance metrics are commonly used in the machine
learning literature for the evaluation of classification systems. Some of the
most common ones for measuring quality of hard decisions are standard and
balanced accuracy, standard and balanced error rate, F-beta score, and Matthews
correlation coefficient (MCC). In this document, we review the definition of
these and other metrics and compare them with the expected cost (EC), a metric
introduced in every statistical learning course but rarely used in the machine
learning literature. We show that both the standard and balanced error rates
are special cases of the EC. Further, we show its relation with F-score and MCC
and argue that EC is superior to these traditional metrics, being more elegant,
general, and intuitive, as well as being based on basic principles from
statistics.
The metrics above measure the quality of hard decisions. Yet, most modern
classification systems output continuous scores for the classes which we may
want to evaluate directly. Metrics for measuring the quality of system scores
include the area under the ROC curve, equal error rate, cross-entropy, Brier
score, and Bayes EC or Bayes risk, among others. The last three metrics are
special cases of a family of metrics given by the expected value of proper
scoring rules (PSRs). We review the theory behind these metrics and argue that
they are the most principled way to measure the quality of the posterior
probabilities produced by a system. Finally, we show how to use these metrics
to compute the system's calibration loss and compare this metric with the
standard expected calibration error (ECE), arguing that calibration loss based
on PSRs is superior to the ECE for a variety of reasons.
- Abstract(参考訳): さまざまなパフォーマンス指標が、分類システムの評価のために機械学習文献で一般的に使用されている。
ハード決定の質を測る最も一般的なものは、標準とバランスの取れた精度、標準とバランスの取れた誤差率、Fベータスコア、マシューズ相関係数(MCC)である。
本稿では,これらと他の指標の定義をレビューし,各統計学習コースで導入されているが機械学習文献では滅多に用いられていない期待コスト(ec)と比較する。
標準および平衡誤差率の両方がECの特別な場合であることを示す。
さらに、f-score と mcc との関係を示し、ec は従来のメトリクスよりも優れており、よりエレガントで汎用的で直感的であり、統計の基本的な原則に基づいていると主張する。
上記のメトリクスは、難しい決定の質を測定します。
しかし、現代のほとんどの分類システムは、直接評価したいクラスに対して連続スコアを出力する。
システムスコアの測定基準には、ROC曲線下の領域、等誤差率、クロスエントロピー、ブライアスコア、ベイズECまたはベイズリスクなどが含まれる。
最後の3つのメトリクスは、適切なスコアリングルール(PSR)の期待値によって与えられるメトリクスのファミリーの特別なケースである。
これらの指標の背景にある理論を概観し、系が生み出す後部確率の質を測る最も原理的な方法であると主張している。
最後に,これらの測定値を用いてシステムのキャリブレーション損失を計算し,この測定値と標準期待キャリブレーション誤差(ECE)を比較し,PSRに基づくキャリブレーション損失は様々な理由からECEよりも優れていると主張した。
関連論文リスト
- Comprehensive Equity Index (CEI): Definition and Application to Bias Evaluation in Biometrics [47.762333925222926]
本稿では,機械学習モデルのバイアス行動の定量化のための新しい指標を提案する。
顔認識システムの運用評価に焦点をあて,適用する。
論文 参考訳(メタデータ) (2024-09-03T14:19:38Z) - Evaluating Posterior Probabilities: Decision Theory, Proper Scoring Rules, and Calibration [10.604555099281173]
キャリブレーション指標は, 後部品質評価には何の役割も果たさない。
予測PSRの分解から得られたキャリブレーション損失と呼ばれる簡易かつ実用的なキャリブレーション指標について論じる。
論文 参考訳(メタデータ) (2024-08-05T21:35:51Z) - $F_β$-plot -- a visual tool for evaluating imbalanced data classifiers [0.0]
本稿では、一般的なパラメトリック計量である$F_beta$を分析するための簡単なアプローチを提案する。
分析された分類器のプールに対して、あるモデルがユーザの要求に応じて好まれるべき場合を示すことができる。
論文 参考訳(メタデータ) (2024-04-11T18:07:57Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - What is Your Metric Telling You? Evaluating Classifier Calibration under
Context-Specific Definitions of Reliability [6.510061176722249]
我々は、キャリブレーション誤差を正確に測定する、より表現力のあるメトリクスを開発する必要があると論じる。
信頼性の異なる定義の下でキャリブレーション誤差を測定するために,期待誤差(ECE)の一般化を用いる。
1) 予測クラスのみに焦点をあてたECEの定義は,信頼性の実際的有用な定義の選択の下でキャリブレーション誤差を正確に測定することができず,2) 多くの一般的なキャリブレーション手法は,ECEメトリクス全体でキャリブレーション性能を均一に改善することができない。
論文 参考訳(メタデータ) (2022-05-23T16:45:02Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - The statistical advantage of automatic NLG metrics at the system level [10.540821585237222]
統計的には、人間は偏りがなく、高分散推定器であり、メトリクスは偏りがあり、低分散推定器である。
ブートストラップを用いて、これらの推定器の誤差をペアワイズ予測(どの生成システムが優れているか?)で比較する。
分析では,測定値の補正誤差を人間と完全セグメントレベルのアノテータと比較した。
論文 参考訳(メタデータ) (2021-05-26T09:53:57Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。