論文の概要: A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice
- arxiv url: http://arxiv.org/abs/2404.16958v1
- Date: Thu, 25 Apr 2024 18:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-29 14:43:43.653051
- Title: A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice
- Title(参考訳): 分類基準の概観と共通評価実践の批判的考察
- Authors: Juri Opitz,
- Abstract要約: 分類システムは数え切れないほど多くの論文で評価されている。
論文に示すように、予測を考慮し、一般的な評価指標の分析を行う。
その結果、メートル法の選択はしばしば説得力のある議論で支持されないことが示され、任意のランク付けを任意に見せることができる問題である。
- 参考スコア(独自算出の注目度): 6.091702876917282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classification systems are evaluated in a countless number of papers. However, we find that evaluation practice is often nebulous. Frequently, metrics are selected without arguments, and blurry terminology invites misconceptions. For instance, many works use so-called 'macro' metrics to rank systems (e.g., 'macro F1') but do not clearly specify what they would expect from such a 'macro' metric. This is problematic, since picking a metric can affect paper findings as well as shared task rankings, and thus any clarity in the process should be maximized. Starting from the intuitive concepts of bias and prevalence, we perform an analysis of common evaluation metrics, considering expectations as found expressed in papers. Equipped with a thorough understanding of the metrics, we survey metric selection in recent shared tasks of Natural Language Processing. The results show that metric choices are often not supported with convincing arguments, an issue that can make any ranking seem arbitrary. This work aims at providing overview and guidance for more informed and transparent metric selection, fostering meaningful evaluation.
- Abstract(参考訳): 分類システムは数え切れないほど多くの論文で評価されている。
しかし,評価の実践がしばしば誤りであることがわかった。
しばしばメトリクスは議論なしで選択され、曖昧な用語は誤解を招きます。
例えば、多くの研究は、いわゆる「マクロ」メトリクスを使用してシステム(例えば「マクロF1」)をランク付けするが、そのような「マクロ」メトリックから何を期待するかを明確に定義していない。
これは、メトリクスの選択が論文の発見や共有タスクのランキングに影響を与える可能性があるため、プロセスの明確さを最大化すべきである、という問題である。
偏見と有病率という直感的な概念から、論文に示されているような期待を考慮し、一般的な評価指標の分析を行う。
そこで,近年の自然言語処理における共有タスクにおけるメトリクス選択について検討した。
その結果、メートル法の選択はしばしば説得力のある議論で支持されないことが示され、任意のランク付けを任意に見せることができる問題である。
本研究の目的は,より情報的かつ透明なメートル法選択のための概要とガイダンスを提供することであり,有意義な評価を促進することである。
関連論文リスト
- Metritocracy: Representative Metrics for Lite Benchmarks [3.0936354370614607]
評価指標のサブセットの選択のための2つの表現概念を定式化するために,社会選択理論からのアイデアを用いる。
まず、位置表現を導入し、すべての選択肢がすべての位置カットオフで十分に表現されていることを保証します。
次に、位置比例を導入し、任意の位置における小さな誤差よりも、比例的に過大あるいは過小に表現されないことを保証します。
論文 参考訳(メタデータ) (2025-06-11T14:53:47Z) - Ranking evaluation metrics from a group-theoretic perspective [5.333192842860574]
一般的に使用される指標において、不整合評価や潜在的な不信の原因となる事例を示す。
分析では,不整合性評価を不信の原因とみなすべきではないことを強調し,評価指標のランク付けに光を当てた。
論文 参考訳(メタデータ) (2024-08-14T09:06:58Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - $F_β$-plot -- a visual tool for evaluating imbalanced data classifiers [0.0]
本稿では、一般的なパラメトリック計量である$F_beta$を分析するための簡単なアプローチを提案する。
分析された分類器のプールに対して、あるモデルがユーザの要求に応じて好まれるべき場合を示すことができる。
論文 参考訳(メタデータ) (2024-04-11T18:07:57Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Revisiting Evaluation Metrics for Semantic Segmentation: Optimization
and Evaluation of Fine-grained Intersection over Union [113.20223082664681]
そこで本研究では,mIoUsの微細化と,それに対応する最悪の指標を提案する。
これらのきめ細かいメトリクスは、大きなオブジェクトに対するバイアスの低減、よりリッチな統計情報、モデルとデータセット監査に関する貴重な洞察を提供する。
ベンチマークでは,1つの測定値に基づかないことの必要性を強調し,微細なmIoUsが大きな物体への偏りを減少させることを確認した。
論文 参考訳(メタデータ) (2023-10-30T03:45:15Z) - Evaluation of FEM and MLFEM AI-explainers in Image Classification tasks
with reference-based and no-reference metrics [0.0]
画像と映像の分類タスクにおけるCNNの説明のために設計された,最近提案されたポストホック説明器 FEM と MLFEM を思い出させる。
基準ベースおよび非参照メトリクスを用いて評価を行う。
非参照計量として、Alvarez-Melis と Jaakkola によって提案された「安定」計量を用いる。
論文 参考訳(メタデータ) (2022-12-02T14:55:31Z) - Classification Performance Metric Elicitation and its Applications [5.5637552942511155]
その実践的関心にもかかわらず、機械学習アプリケーションのためのメトリクスの選択方法に関する正式なガイダンスは限られている。
この論文は、暗黙のユーザの嗜好を最も反映したパフォーマンスメトリックを選択するための原則的なフレームワークとして、メトリクスの誘惑を概説している。
論文 参考訳(メタデータ) (2022-08-19T03:57:17Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z) - On Quantitative Evaluations of Counterfactuals [88.42660013773647]
本稿では、分析と実験を通じて、視覚的対実例の評価に関する研究を集約する。
ほとんどのメトリクスは、十分な単純なデータセットを意図して振る舞うが、複雑さが増加すると、良い結果と悪い結果の違いを判断できないものもいる。
私たちはラベル変動スコアとOracleスコアという2つの新しい指標を提案しています。
論文 参考訳(メタデータ) (2021-10-30T05:00:36Z) - Estimation of Fair Ranking Metrics with Incomplete Judgments [70.37717864975387]
本研究では,4つの評価指標のサンプリング手法と推定手法を提案する。
ラベル付きアイテムの数が極めて少ない場合でも動作可能な頑健で偏りのない推定器を定式化する。
論文 参考訳(メタデータ) (2021-08-11T10:57:00Z) - Quantitative Evaluations on Saliency Methods: An Experimental Study [6.290238942982972]
我々は, 忠実性, 局在性, 偽陽性, 感度チェック, 安定性など, 指標の現状を簡単に要約する。
比較したすべての手法の中で、すべての指標において1つの説明法が他を圧倒することはないと結論づける。
論文 参考訳(メタデータ) (2020-12-31T14:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。