論文の概要: Analysis and Comparison of Classification Metrics
- arxiv url: http://arxiv.org/abs/2209.05355v4
- Date: Wed, 20 Sep 2023 20:20:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 20:15:38.042458
- Title: Analysis and Comparison of Classification Metrics
- Title(参考訳): 分類基準の分析と比較
- Authors: Luciana Ferrer
- Abstract要約: システムスコアの測定基準には、ROC曲線下の領域、等誤差率、クロスエントロピー、ブライアスコア、ベイズECまたはベイズリスクが含まれる。
これらの測定値を用いてシステムのキャリブレーション損失を計算し、この測定値を広く使用されている予測キャリブレーション誤差(ECE)と比較する。
- 参考スコア(独自算出の注目度): 12.092755413404245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A variety of different performance metrics are commonly used in the machine
learning literature for the evaluation of classification systems. Some of the
most common ones for measuring quality of hard decisions are standard and
balanced accuracy, standard and balanced error rate, F-beta score, and Matthews
correlation coefficient (MCC). In this document, we review the definition of
these and other metrics and compare them with the expected cost (EC), a metric
introduced in every statistical learning course but rarely used in the machine
learning literature. We show that both the standard and balanced error rates
are special cases of the EC. Further, we show its relation with F-beta score
and MCC and argue that EC is superior to these traditional metrics for being
based on first principles from statistics, and for being more general,
interpretable, and adaptable to any application scenario. The metrics mentioned
above measure the quality of hard decisions. Yet, most modern classification
systems output continuous scores for the classes which we may want to evaluate
directly. Metrics for measuring the quality of system scores include the area
under the ROC curve, equal error rate, cross-entropy, Brier score, and Bayes EC
or Bayes risk, among others. The last three metrics are special cases of a
family of metrics given by the expected value of proper scoring rules (PSRs).
We review the theory behind these metrics, showing that they are a principled
way to measure the quality of the posterior probabilities produced by a system.
Finally, we show how to use these metrics to compute a system's calibration
loss and compare this metric with the widely-used expected calibration error
(ECE), arguing that calibration loss based on PSRs is superior to the ECE for
being more interpretable, more general, and directly applicable to the
multi-class case, among other reasons.
- Abstract(参考訳): さまざまなパフォーマンス指標が、分類システムの評価のために機械学習文献で一般的に使用されている。
ハード決定の質を測る最も一般的なものは、標準とバランスの取れた精度、標準とバランスの取れた誤差率、Fベータスコア、マシューズ相関係数(MCC)である。
本稿では,これらと他の指標の定義をレビューし,各統計学習コースで導入されているが機械学習文献では滅多に用いられていない期待コスト(ec)と比較する。
標準および平衡誤差率の両方がECの特別な場合であることを示す。
さらに、F-betaスコアとMCCとの関係を示すとともに、ECは統計学の第一原理に基づいており、より汎用的で、解釈可能で、あらゆるアプリケーションシナリオに適応できるため、これらの従来の指標よりも優れていると論じる。
上記のメトリクスは、難しい決定の質を測定します。
しかし、現代のほとんどの分類システムは、直接評価したいクラスに対して連続スコアを出力する。
システムスコアの測定基準には、ROC曲線下の領域、等誤差率、クロスエントロピー、ブライアスコア、ベイズECまたはベイズリスクなどが含まれる。
最後の3つのメトリクスは、適切なスコアリングルール(PSR)の期待値によって与えられるメトリクスのファミリーの特別なケースである。
これらの指標の背景にある理論を概観し、システムによって生成される後部確率の質を測定するための原則的な方法であることを示す。
最後に、これらの指標を用いてシステムの校正損失を計算し、この指標を広く使われている予測校正誤差(ECE)と比較し、PSRに基づく校正損失は、より解釈可能で、より一般的で、マルチクラスケースに直接適用できるECEよりも優れていると論じる。
関連論文リスト
- Comprehensive Equity Index (CEI): Definition and Application to Bias Evaluation in Biometrics [47.762333925222926]
本稿では,機械学習モデルのバイアス行動の定量化のための新しい指標を提案する。
顔認識システムの運用評価に焦点をあて,適用する。
論文 参考訳(メタデータ) (2024-09-03T14:19:38Z) - Evaluating Posterior Probabilities: Decision Theory, Proper Scoring Rules, and Calibration [10.604555099281173]
キャリブレーション指標は, 後部品質評価には何の役割も果たさない。
予測PSRの分解から得られたキャリブレーション損失と呼ばれる簡易かつ実用的なキャリブレーション指標について論じる。
論文 参考訳(メタデータ) (2024-08-05T21:35:51Z) - $F_β$-plot -- a visual tool for evaluating imbalanced data classifiers [0.0]
本稿では、一般的なパラメトリック計量である$F_beta$を分析するための簡単なアプローチを提案する。
分析された分類器のプールに対して、あるモデルがユーザの要求に応じて好まれるべき場合を示すことができる。
論文 参考訳(メタデータ) (2024-04-11T18:07:57Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - What is Your Metric Telling You? Evaluating Classifier Calibration under
Context-Specific Definitions of Reliability [6.510061176722249]
我々は、キャリブレーション誤差を正確に測定する、より表現力のあるメトリクスを開発する必要があると論じる。
信頼性の異なる定義の下でキャリブレーション誤差を測定するために,期待誤差(ECE)の一般化を用いる。
1) 予測クラスのみに焦点をあてたECEの定義は,信頼性の実際的有用な定義の選択の下でキャリブレーション誤差を正確に測定することができず,2) 多くの一般的なキャリブレーション手法は,ECEメトリクス全体でキャリブレーション性能を均一に改善することができない。
論文 参考訳(メタデータ) (2022-05-23T16:45:02Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - The statistical advantage of automatic NLG metrics at the system level [10.540821585237222]
統計的には、人間は偏りがなく、高分散推定器であり、メトリクスは偏りがあり、低分散推定器である。
ブートストラップを用いて、これらの推定器の誤差をペアワイズ予測(どの生成システムが優れているか?)で比較する。
分析では,測定値の補正誤差を人間と完全セグメントレベルのアノテータと比較した。
論文 参考訳(メタデータ) (2021-05-26T09:53:57Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。