Fugu-MT 論文翻訳(概要): Analysis and Comparison of Classification Metrics

論文の概要: Analysis and Comparison of Classification Metrics

arxiv url: http://arxiv.org/abs/2209.05355v3
Date: Wed, 14 Jun 2023 21:41:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-17 03:44:57.679432
Title: Analysis and Comparison of Classification Metrics
Title（参考訳）: 分類基準の分析と比較
Authors: Luciana Ferrer
Abstract要約: システムスコアの測定基準には、ROC曲線下の領域、等誤差率、クロスエントロピー、ブライアスコア、ベイズECまたはベイズリスクが含まれる。本稿では,これらの指標を用いてシステムのキャリブレーション損失を計算し,標準的なキャリブレーション誤差と比較する。
参考スコア（独自算出の注目度）: 10.607177634432214
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A variety of different performance metrics are commonly used in the machine learning literature for the evaluation of classification systems. Some of the most common ones for measuring quality of hard decisions are standard and balanced accuracy, standard and balanced error rate, F-beta score, and Matthews correlation coefficient (MCC). In this document, we review the definition of these and other metrics and compare them with the expected cost (EC), a metric introduced in every statistical learning course but rarely used in the machine learning literature. We show that both the standard and balanced error rates are special cases of the EC. Further, we show its relation with F-score and MCC and argue that EC is superior to these traditional metrics, being more elegant, general, and intuitive, as well as being based on basic principles from statistics. The metrics above measure the quality of hard decisions. Yet, most modern classification systems output continuous scores for the classes which we may want to evaluate directly. Metrics for measuring the quality of system scores include the area under the ROC curve, equal error rate, cross-entropy, Brier score, and Bayes EC or Bayes risk, among others. The last three metrics are special cases of a family of metrics given by the expected value of proper scoring rules (PSRs). We review the theory behind these metrics and argue that they are the most principled way to measure the quality of the posterior probabilities produced by a system. Finally, we show how to use these metrics to compute the system's calibration loss and compare this metric with the standard expected calibration error (ECE), arguing that calibration loss based on PSRs is superior to the ECE for a variety of reasons.
Abstract（参考訳）: さまざまなパフォーマンス指標が、分類システムの評価のために機械学習文献で一般的に使用されている。ハード決定の質を測る最も一般的なものは、標準とバランスの取れた精度、標準とバランスの取れた誤差率、Fベータスコア、マシューズ相関係数(MCC)である。本稿では,これらと他の指標の定義をレビューし,各統計学習コースで導入されているが機械学習文献では滅多に用いられていない期待コスト(ec)と比較する。標準および平衡誤差率の両方がECの特別な場合であることを示す。さらに、f-score と mcc との関係を示し、ec は従来のメトリクスよりも優れており、よりエレガントで汎用的で直感的であり、統計の基本的な原則に基づいていると主張する。上記のメトリクスは、難しい決定の質を測定します。しかし、現代のほとんどの分類システムは、直接評価したいクラスに対して連続スコアを出力する。システムスコアの測定基準には、ROC曲線下の領域、等誤差率、クロスエントロピー、ブライアスコア、ベイズECまたはベイズリスクなどが含まれる。最後の3つのメトリクスは、適切なスコアリングルール(PSR)の期待値によって与えられるメトリクスのファミリーの特別なケースである。これらの指標の背景にある理論を概観し、系が生み出す後部確率の質を測る最も原理的な方法であると主張している。最後に,これらの測定値を用いてシステムのキャリブレーション損失を計算し,この測定値と標準期待キャリブレーション誤差(ECE)を比較し,PSRに基づくキャリブレーション損失は様々な理由からECEよりも優れていると主張した。

関連論文リスト

Algorithmic Accountability in Small Data: Sample-Size-Induced Bias Within Classification Metrics [0.0]
分類指標におけるサンプルサイズバイアスの重要性を示す。この啓示は、高解像度のバイアス評価におけるこれらの指標の有効性に挑戦する。本稿では,モデルに依存しない評価と補正手法を提案する。
論文参考訳（メタデータ） (2025-05-06T22:02:53Z)
Comprehensive Equity Index (CEI): Definition and Application to Bias Evaluation in Biometrics [47.762333925222926]
本稿では,機械学習モデルのバイアス行動の定量化のための新しい指標を提案する。顔認識システムの運用評価に焦点をあて,適用する。
論文参考訳（メタデータ） (2024-09-03T14:19:38Z)
Evaluating Posterior Probabilities: Decision Theory, Proper Scoring Rules, and Calibration [10.604555099281173]
キャリブレーション指標は, 後部品質評価には何の役割も果たさない。予測PSRの分解から得られたキャリブレーション損失と呼ばれる簡易かつ実用的なキャリブレーション指標について論じる。
論文参考訳（メタデータ） (2024-08-05T21:35:51Z)
$F_β$-plot -- a visual tool for evaluating imbalanced data classifiers [0.0]
本稿では、一般的なパラメトリック計量である$F_beta$を分析するための簡単なアプローチを提案する。分析された分類器のプールに対して、あるモデルがユーザの要求に応じて好まれるべき場合を示すことができる。
論文参考訳（メタデータ） (2024-04-11T18:07:57Z)
Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、ユーザプロンプトに入力された社会的属性と短い応答の関係を測定する。実世界の3つの文脈から類似したRUTEd評価法を開発した。標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文参考訳（メタデータ） (2024-02-20T01:49:15Z)
Machine Translation Meta Evaluation through Translation Accuracy Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文参考訳（メタデータ） (2024-01-29T17:17:42Z)
Towards Multiple References Era -- Addressing Data Leakage and Limited Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文参考訳（メタデータ） (2023-08-06T14:49:26Z)
BLEURT Has Universal Translations: An Analysis of Automatic Metrics by Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。 BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文参考訳（メタデータ） (2023-07-06T16:59:30Z)
What is Your Metric Telling You? Evaluating Classifier Calibration under Context-Specific Definitions of Reliability [6.510061176722249]
我々は、キャリブレーション誤差を正確に測定する、より表現力のあるメトリクスを開発する必要があると論じる。信頼性の異なる定義の下でキャリブレーション誤差を測定するために,期待誤差(ECE)の一般化を用いる。 1) 予測クラスのみに焦点をあてたECEの定義は,信頼性の実際的有用な定義の選択の下でキャリブレーション誤差を正確に測定することができず,2) 多くの一般的なキャリブレーション手法は,ECEメトリクス全体でキャリブレーション性能を均一に改善することができない。
論文参考訳（メタデータ） (2022-05-23T16:45:02Z)
Re-Examining System-Level Correlations of Automatic Summarization Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文参考訳（メタデータ） (2022-04-21T15:52:14Z)
The statistical advantage of automatic NLG metrics at the system level [10.540821585237222]
統計的には、人間は偏りがなく、高分散推定器であり、メトリクスは偏りがあり、低分散推定器である。ブートストラップを用いて、これらの推定器の誤差をペアワイズ予測(どの生成システムが優れているか?)で比較する。分析では,測定値の補正誤差を人間と完全セグメントレベルのアノテータと比較した。
論文参考訳（メタデータ） (2021-05-26T09:53:57Z)
Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文参考訳（メタデータ） (2021-02-22T07:22:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。