論文の概要: A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice
- arxiv url: http://arxiv.org/abs/2404.16958v2
- Date: Tue, 2 Jul 2024 08:53:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 07:09:19.933633
- Title: A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice
- Title(参考訳): 分類基準の概観と共通評価実践の批判的考察
- Authors: Juri Opitz,
- Abstract要約: 分類システムは数え切れないほど多くの論文で評価されている。
しかし,評価の実践がしばしば誤りであることがわかった。
多くの研究は、いわゆる「マクロ」メトリクスを使ってシステムをランク付けするが、そのようなメトリクスから何を期待するかを明確には示していない。
- 参考スコア(独自算出の注目度): 6.091702876917282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classification systems are evaluated in a countless number of papers. However, we find that evaluation practice is often nebulous. Frequently, metrics are selected without arguments, and blurry terminology invites misconceptions. For instance, many works use so-called 'macro' metrics to rank systems (e.g., 'macro F1') but do not clearly specify what they would expect from such a `macro' metric. This is problematic, since picking a metric can affect research findings, and thus any clarity in the process should be maximized. Starting from the intuitive concepts of bias and prevalence, we perform an analysis of common evaluation metrics. The analysis helps us understand the metrics' underlying properties, and how they align with expectations as found expressed in papers. Then we reflect on the practical situation in the field, and survey evaluation practice in recent shared tasks. We find that metric selection is often not supported with convincing arguments, an issue that can make a system ranking seem arbitrary. Our work aims at providing overview and guidance for more informed and transparent metric selection, fostering meaningful evaluation.
- Abstract(参考訳): 分類システムは数え切れないほど多くの論文で評価されている。
しかし,評価の実践がしばしば誤りであることがわかった。
しばしばメトリクスは議論なしで選択され、曖昧な用語は誤解を招きます。
例えば、多くの研究は、いわゆる「マクロ」メトリクスを使ってシステム(例えば「マクロF1」)をランク付けするが、そのような「マクロ」メトリックから何を期待するかを明確に定義していない。
これは、メトリックの選択が研究結果に影響を与える可能性があるため、プロセスの明確性は最大化されるべきである、という問題である。
バイアスと有病率という直感的な概念から始まり、一般的な評価指標の分析を行う。
この分析は、メトリクスの基盤となる特性や、論文で示されている期待とどのように一致しているかを理解するのに役立ちます。
次に,近年の共有タスクにおける現場の実践状況と調査評価の実践について考察する。
メトリクスの選択は、システムランキングを任意に見せることができる問題である説得力のある議論では、しばしばサポートされない。
本研究の目的は,より情報的かつ透明なメートル法選択のための概要とガイダンスを提供することであり,有意義な評価を促進することである。
関連論文リスト
- Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Evaluation of FEM and MLFEM AI-explainers in Image Classification tasks
with reference-based and no-reference metrics [0.0]
画像と映像の分類タスクにおけるCNNの説明のために設計された,最近提案されたポストホック説明器 FEM と MLFEM を思い出させる。
基準ベースおよび非参照メトリクスを用いて評価を行う。
非参照計量として、Alvarez-Melis と Jaakkola によって提案された「安定」計量を用いる。
論文 参考訳(メタデータ) (2022-12-02T14:55:31Z) - Classification Performance Metric Elicitation and its Applications [5.5637552942511155]
その実践的関心にもかかわらず、機械学習アプリケーションのためのメトリクスの選択方法に関する正式なガイダンスは限られている。
この論文は、暗黙のユーザの嗜好を最も反映したパフォーマンスメトリックを選択するための原則的なフレームワークとして、メトリクスの誘惑を概説している。
論文 参考訳(メタデータ) (2022-08-19T03:57:17Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z) - Towards Explainable Evaluation Metrics for Natural Language Generation [36.594817754285984]
重要な特性を特定し,機械翻訳評価指標の重要な目標を提案する。
我々は,従来のNLP手法が高品質なブラックボックス評価指標の限界を自動的に識別するのに不適であることを示す新しい実験を行った。
論文 参考訳(メタデータ) (2022-03-21T17:05:54Z) - Evaluating Metrics for Bias in Word Embeddings [64.55554083622258]
我々は、過去の研究の考えに基づいてバイアス定義を定式化し、バイアスメトリクスの条件を導出する。
そこで我々は,既存のメトリクスの欠点に対処する新しい計量であるhetを提案し,その振る舞いを数学的に証明する。
論文 参考訳(メタデータ) (2021-11-15T16:07:15Z) - On Quantitative Evaluations of Counterfactuals [88.42660013773647]
本稿では、分析と実験を通じて、視覚的対実例の評価に関する研究を集約する。
ほとんどのメトリクスは、十分な単純なデータセットを意図して振る舞うが、複雑さが増加すると、良い結果と悪い結果の違いを判断できないものもいる。
私たちはラベル変動スコアとOracleスコアという2つの新しい指標を提案しています。
論文 参考訳(メタデータ) (2021-10-30T05:00:36Z) - Estimation of Fair Ranking Metrics with Incomplete Judgments [70.37717864975387]
本研究では,4つの評価指標のサンプリング手法と推定手法を提案する。
ラベル付きアイテムの数が極めて少ない場合でも動作可能な頑健で偏りのない推定器を定式化する。
論文 参考訳(メタデータ) (2021-08-11T10:57:00Z) - Quantitative Evaluations on Saliency Methods: An Experimental Study [6.290238942982972]
我々は, 忠実性, 局在性, 偽陽性, 感度チェック, 安定性など, 指標の現状を簡単に要約する。
比較したすべての手法の中で、すべての指標において1つの説明法が他を圧倒することはないと結論づける。
論文 参考訳(メタデータ) (2020-12-31T14:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。