論文の概要: Does the evaluation stand up to evaluation? A first-principle approach
to the evaluation of classifiers
- arxiv url: http://arxiv.org/abs/2302.12006v1
- Date: Tue, 21 Feb 2023 09:55:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 15:06:29.823868
- Title: Does the evaluation stand up to evaluation? A first-principle approach
to the evaluation of classifiers
- Title(参考訳): 評価は評価に当てはまりますか。
分類器の評価に対する第一原理的アプローチ
- Authors: K. Dyrland, A. S. Lundervold, P.G.L. Porta Mana
- Abstract要約: 精度, 平衡精度, マシューズ相関係数, Fowlkes-Mallows index, F1-measure, Area Under the Curveなどの一般的な指標は最適ではない。
この分数は、適度に間違った係数を持つ決定理論計量の使用によって引き起こされるものよりもさらに大きい。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can one meaningfully make a measurement, if the meter does not conform to
any standard and its scale expands or shrinks depending on what is measured? In
the present work it is argued that current evaluation practices for
machine-learning classifiers are affected by this kind of problem, leading to
negative consequences when classifiers are put to real use; consequences that
could have been avoided. It is proposed that evaluation be grounded on Decision
Theory, and the implications of such foundation are explored. The main result
is that every evaluation metric must be a linear combination of
confusion-matrix elements, with coefficients - "utilities" - that depend on the
specific classification problem. For binary classification, the space of such
possible metrics is effectively two-dimensional. It is shown that popular
metrics such as precision, balanced accuracy, Matthews Correlation Coefficient,
Fowlkes-Mallows index, F1-measure, and Area Under the Curve are never optimal:
they always give rise to an in-principle avoidable fraction of incorrect
evaluations. This fraction is even larger than would be caused by the use of a
decision-theoretic metric with moderately wrong coefficients.
- Abstract(参考訳): メーターが標準に適合せず、測定値に応じてスケールが拡大または縮小した場合、どうやって有意義に測定を行うことができるのか?
本研究では、機械学習分類器に対する現在の評価手法は、この種の問題に影響を受けており、分類器を実際に使用した場合に負の結果をもたらすと論じている。
決定理論に基づく評価が提案され,その意義が検討されている。
主な結果は、全ての評価計量が、特定の分類問題に依存する係数である「効用」を持つ混乱行列要素の線形結合でなければならないことである。
バイナリ分類の場合、そのようなメトリクスの空間は事実上2次元である。
その結果, 精度, 平衡精度, マシューズ相関係数, fowlkes-mallows index, f1-measure, および曲線下領域といった一般的な指標は必ずしも最適ではないことがわかった。
この分数は、適度に間違った係数を持つ決定理論計量の使用によって引き起こされるものよりもさらに大きい。
関連論文リスト
- A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice [6.091702876917282]
分類システムは数え切れないほど多くの論文で評価されている。
しかし,評価の実践がしばしば誤りであることがわかった。
多くの研究は、いわゆる「マクロ」メトリクスを使ってシステムをランク付けするが、そのようなメトリクスから何を期待するかを明確には示していない。
論文 参考訳(メタデータ) (2024-04-25T18:12:43Z) - $F_β$-plot -- a visual tool for evaluating imbalanced data classifiers [0.0]
本稿では、一般的なパラメトリック計量である$F_beta$を分析するための簡単なアプローチを提案する。
分析された分類器のプールに対して、あるモデルがユーザの要求に応じて好まれるべき場合を示すことができる。
論文 参考訳(メタデータ) (2024-04-11T18:07:57Z) - Revisiting Evaluation Metrics for Semantic Segmentation: Optimization
and Evaluation of Fine-grained Intersection over Union [113.20223082664681]
そこで本研究では,mIoUsの微細化と,それに対応する最悪の指標を提案する。
これらのきめ細かいメトリクスは、大きなオブジェクトに対するバイアスの低減、よりリッチな統計情報、モデルとデータセット監査に関する貴重な洞察を提供する。
ベンチマークでは,1つの測定値に基づかないことの必要性を強調し,微細なmIoUsが大きな物体への偏りを減少させることを確認した。
論文 参考訳(メタデータ) (2023-10-30T03:45:15Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z) - Optimizing Partial Area Under the Top-k Curve: Theory and Practice [151.5072746015253]
トップk曲線下部分領域(AUTKC)と呼ばれる新しい計量法を開発した。
AUTKCはより優れた識別能力を持ち、ベイズ最適スコア関数は条件付き確率に対して正しいトップKランクを与えることができる。
提案手法を最適化するために,実証的なサロゲートリスク最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-03T11:09:13Z) - Benign Overfitting in Adversarially Robust Linear Classification [91.42259226639837]
分類器がノイズの多いトレーニングデータを記憶しながらも、優れた一般化性能を達成している「双曲オーバーフィッティング」は、機械学習コミュニティにおいて大きな注目を集めている。
本研究は, 対人訓練において, 対人訓練において, 良心過剰が実際に発生することを示し, 対人訓練に対する防御の原則的アプローチを示す。
論文 参考訳(メタデータ) (2021-12-31T00:27:31Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Classifier uncertainty: evidence, potential impact, and probabilistic
treatment [0.0]
本稿では,混乱行列の確率モデルに基づいて,分類性能指標の不確かさを定量化する手法を提案する。
我々は、不確実性は驚くほど大きく、性能評価を制限できることを示した。
論文 参考訳(メタデータ) (2020-06-19T12:49:19Z) - An Effectiveness Metric for Ordinal Classification: Formal Properties
and Experimental Results [9.602361044877426]
本稿では,測定理論と情報理論に根ざした正規分類・閉度評価尺度の新しい尺度を提案する。
NLP共有タスクの合成データとデータの両方に対する理論的解析と実験結果から,提案手法が従来のタスクから品質面を同時に捉えていることが示唆された。
論文 参考訳(メタデータ) (2020-06-01T20:35:46Z) - Fractional norms and quasinorms do not help to overcome the curse of
dimensionality [62.997667081978825]
マンハッタンの距離や分数的な準位数 lp は、分類問題における次元性の呪いを克服するのに役立ちます。
系統的な比較では、p=2, 1, 0.5 の lp に基づく kNN の性能の違いは統計的に重要でないことが示されている。
論文 参考訳(メタデータ) (2020-04-29T14:30:12Z) - On Model Evaluation under Non-constant Class Imbalance [0.0]
多くの実世界の分類問題は、関心の階級の有害さと著しくクラス不均衡である。
通常の仮定では、テストデータセットの不均衡は実世界の不均衡と等しい。
非コンスタントクラス不均衡下での評価に焦点をあてる手法を提案する。
論文 参考訳(メタデータ) (2020-01-15T21:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。