論文の概要: A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice
- arxiv url: http://arxiv.org/abs/2404.16958v1
- Date: Thu, 25 Apr 2024 18:12:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 14:43:43.653051
- Title: A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice
- Title(参考訳): 分類基準の概観と共通評価実践の批判的考察
- Authors: Juri Opitz,
- Abstract要約: 分類システムは数え切れないほど多くの論文で評価されている。
論文に示すように、予測を考慮し、一般的な評価指標の分析を行う。
その結果、メートル法の選択はしばしば説得力のある議論で支持されないことが示され、任意のランク付けを任意に見せることができる問題である。
- 参考スコア(独自算出の注目度): 6.091702876917282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classification systems are evaluated in a countless number of papers. However, we find that evaluation practice is often nebulous. Frequently, metrics are selected without arguments, and blurry terminology invites misconceptions. For instance, many works use so-called 'macro' metrics to rank systems (e.g., 'macro F1') but do not clearly specify what they would expect from such a 'macro' metric. This is problematic, since picking a metric can affect paper findings as well as shared task rankings, and thus any clarity in the process should be maximized. Starting from the intuitive concepts of bias and prevalence, we perform an analysis of common evaluation metrics, considering expectations as found expressed in papers. Equipped with a thorough understanding of the metrics, we survey metric selection in recent shared tasks of Natural Language Processing. The results show that metric choices are often not supported with convincing arguments, an issue that can make any ranking seem arbitrary. This work aims at providing overview and guidance for more informed and transparent metric selection, fostering meaningful evaluation.
- Abstract(参考訳): 分類システムは数え切れないほど多くの論文で評価されている。
しかし,評価の実践がしばしば誤りであることがわかった。
しばしばメトリクスは議論なしで選択され、曖昧な用語は誤解を招きます。
例えば、多くの研究は、いわゆる「マクロ」メトリクスを使用してシステム(例えば「マクロF1」)をランク付けするが、そのような「マクロ」メトリックから何を期待するかを明確に定義していない。
これは、メトリクスの選択が論文の発見や共有タスクのランキングに影響を与える可能性があるため、プロセスの明確さを最大化すべきである、という問題である。
偏見と有病率という直感的な概念から、論文に示されているような期待を考慮し、一般的な評価指標の分析を行う。
そこで,近年の自然言語処理における共有タスクにおけるメトリクス選択について検討した。
その結果、メートル法の選択はしばしば説得力のある議論で支持されないことが示され、任意のランク付けを任意に見せることができる問題である。
本研究の目的は,より情報的かつ透明なメートル法選択のための概要とガイダンスを提供することであり,有意義な評価を促進することである。
関連論文リスト
- Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - We Need to Talk About Classification Evaluation Metrics in NLP [34.73017509294468]
自然言語処理(NLP)モデルでは、一般化可能性は通常、精度、F-Measure、AUC-ROCといった標準メトリクスで測定される。
メトリクスの多様性とそれらのアプリケーションの任意性は、使用すべき最高のメトリックに対して、NLP内に合意がないことを示唆している。
ランダムガウス正規化Informednessメトリックがタスク性能の相似ベースラインであることを実証する。
論文 参考訳(メタデータ) (2024-01-08T11:40:48Z) - Using Natural Language Explanations to Rescale Human Judgments [89.21530406247142]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Does the evaluation stand up to evaluation? A first-principle approach
to the evaluation of classifiers [0.0]
精度, 平衡精度, マシューズ相関係数, Fowlkes-Mallows index, F1-measure, Area Under the Curveなどの一般的な指標は最適ではない。
この分数は、適度に間違った係数を持つ決定理論計量の使用によって引き起こされるものよりもさらに大きい。
論文 参考訳(メタデータ) (2023-02-21T09:55:19Z) - Evaluation of FEM and MLFEM AI-explainers in Image Classification tasks
with reference-based and no-reference metrics [0.0]
画像と映像の分類タスクにおけるCNNの説明のために設計された,最近提案されたポストホック説明器 FEM と MLFEM を思い出させる。
基準ベースおよび非参照メトリクスを用いて評価を行う。
非参照計量として、Alvarez-Melis と Jaakkola によって提案された「安定」計量を用いる。
論文 参考訳(メタデータ) (2022-12-02T14:55:31Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z) - Evaluating Metrics for Bias in Word Embeddings [64.55554083622258]
我々は、過去の研究の考えに基づいてバイアス定義を定式化し、バイアスメトリクスの条件を導出する。
そこで我々は,既存のメトリクスの欠点に対処する新しい計量であるhetを提案し,その振る舞いを数学的に証明する。
論文 参考訳(メタデータ) (2021-11-15T16:07:15Z) - Estimation of Fair Ranking Metrics with Incomplete Judgments [70.37717864975387]
本研究では,4つの評価指標のサンプリング手法と推定手法を提案する。
ラベル付きアイテムの数が極めて少ない場合でも動作可能な頑健で偏りのない推定器を定式化する。
論文 参考訳(メタデータ) (2021-08-11T10:57:00Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - An Effectiveness Metric for Ordinal Classification: Formal Properties
and Experimental Results [9.602361044877426]
本稿では,測定理論と情報理論に根ざした正規分類・閉度評価尺度の新しい尺度を提案する。
NLP共有タスクの合成データとデータの両方に対する理論的解析と実験結果から,提案手法が従来のタスクから品質面を同時に捉えていることが示唆された。
論文 参考訳(メタデータ) (2020-06-01T20:35:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。