論文の概要: Good Classification Measures and How to Find Them
- arxiv url: http://arxiv.org/abs/2201.09044v1
- Date: Sat, 22 Jan 2022 13:05:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 17:48:56.509206
- Title: Good Classification Measures and How to Find Them
- Title(参考訳): 優れた分類方法とそれらをどのように見つけるか
- Authors: Martijn G\"osgens, Anton Zhiyanov, Alexey Tikhonov, Liudmila
Prokhorenkova
- Abstract要約: 分類結果の評価には、精度、F測定など、いくつかのパフォーマンス指標を用いることができる。
それらのうちのいくつかは、他のものよりも優れている、あるいは理想的には、あらゆる状況において最もよい尺度を1つ選ぶことができるだろうか?
望ましい性質のリストを正式に定義し、どの性質を満たすか理論的に分析する。
- 参考スコア(独自算出の注目度): 25.98926904342198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several performance measures can be used for evaluating classification
results: accuracy, F-measure, and many others. Can we say that some of them are
better than others, or, ideally, choose one measure that is best in all
situations? To answer this question, we conduct a systematic analysis of
classification performance measures: we formally define a list of desirable
properties and theoretically analyze which measures satisfy which properties.
We also prove an impossibility theorem: some desirable properties cannot be
simultaneously satisfied. Finally, we propose a new family of measures
satisfying all desirable properties except one. This family includes the
Matthews Correlation Coefficient and a so-called Symmetric Balanced Accuracy
that was not previously used in classification literature. We believe that our
systematic approach gives an important tool to practitioners for adequately
evaluating classification results.
- Abstract(参考訳): 分類結果の評価には、精度、F測定など、いくつかのパフォーマンス指標を用いることができる。
それらのいくつかは他のものよりも優れている、あるいは理想的には、すべての状況において最良の1つの尺度を選ぶことができるだろうか?
我々は望ましい特性のリストを形式的に定義し、どの指標がどの特性を満足しているかを理論的に分析する。
また、いくつかの望ましい性質を同時に満たすことができないという不合理性定理も証明する。
最後に,これら以外のすべての望ましい性質を満たす新しい尺度群を提案する。
この族はマシューズ相関係数と、以前は分類文献で用いられていなかったいわゆる対称平衡精度を含む。
当社の体系的アプローチは,分類結果を適切に評価する上で,実践者にとって重要なツールであると信じています。
関連論文リスト
- Selecting a classification performance measure: matching the measure to the problem [1.634939455222784]
研究や応用の目的に合致するパフォーマンスの尺度を選択することは不可欠である。
本論文は,異なるパフォーマンス尺度の相対的メリットに関する文献の増大に寄与するものである。
論文 参考訳(メタデータ) (2024-09-19T01:32:02Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Are We Really Achieving Better Beyond-Accuracy Performance in Next Basket Recommendation? [57.91114305844153]
次のバスケットレコメンデーション(NBR)は、ますます注目を集めている特別なタイプのシーケンシャルレコメンデーションである。
NBRに関する最近の研究は、繰り返し項目を推奨することと項目を探索することの間に大きなパフォーマンス差が見つかった。
本稿では,繰り返しアイテムを扱い,個別にアイテムを探索する2段階反復探索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-02T09:59:35Z) - A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice [6.091702876917282]
分類システムは数え切れないほど多くの論文で評価されている。
しかし,評価の実践がしばしば誤りであることがわかった。
多くの研究は、いわゆる「マクロ」メトリクスを使ってシステムをランク付けするが、そのようなメトリクスから何を期待するかを明確には示していない。
論文 参考訳(メタデータ) (2024-04-25T18:12:43Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Enriching Disentanglement: From Logical Definitions to Quantitative Metrics [59.12308034729482]
複雑なデータにおける説明的要素を遠ざけることは、データ効率の表現学習にとって有望なアプローチである。
論理的定義と量的指標の関連性を確立し, 理論的に根ざした絡み合いの指標を導出する。
本研究では,非交叉表現の異なる側面を分離することにより,提案手法の有効性を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T08:22:23Z) - Does the evaluation stand up to evaluation? A first-principle approach
to the evaluation of classifiers [0.0]
精度, 平衡精度, マシューズ相関係数, Fowlkes-Mallows index, F1-measure, Area Under the Curveなどの一般的な指標は最適ではない。
この分数は、適度に間違った係数を持つ決定理論計量の使用によって引き起こされるものよりもさらに大きい。
論文 参考訳(メタデータ) (2023-02-21T09:55:19Z) - Properties of Group Fairness Metrics for Rankings [4.479834103607384]
フェアランキングの文脈において,既存のグループフェアネス指標の比較分析を行った。
我々は、グループフェアネスのメトリクスに対して13のプロパティのセットを設計する、公理的なアプローチをとる。
これらの指標のほとんどは、提案された性質の小さな部分集合のみを満たすことを実証する。
論文 参考訳(メタデータ) (2022-12-29T15:50:18Z) - Benchmarking Answer Verification Methods for Question Answering-Based
Summarization Evaluation Metrics [74.28810048824519]
質問応答に基づく要約評価メトリクスは、QAモデルの予測が正しいかどうかを自動的に判断する必要がある。
筆者らは,現在QAベースのメトリクスで使用されている語彙的回答検証手法と,より洗練された2つのテキスト比較手法をベンチマークした。
論文 参考訳(メタデータ) (2022-04-21T15:43:45Z) - Cautious Active Clustering [79.23797234241471]
ユークリッド空間上の未知の確率測度からサンプリングされた点の分類の問題を考える。
我々のアプローチは、未知の確率測度を、各クラスに対する条件付き確率の凸結合として考えることである。
論文 参考訳(メタデータ) (2020-08-03T23:47:31Z) - Classifier uncertainty: evidence, potential impact, and probabilistic
treatment [0.0]
本稿では,混乱行列の確率モデルに基づいて,分類性能指標の不確かさを定量化する手法を提案する。
我々は、不確実性は驚くほど大きく、性能評価を制限できることを示した。
論文 参考訳(メタデータ) (2020-06-19T12:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。