Fugu-MT 論文翻訳(概要): Overcoming Common Flaws in the Evaluation of Selective Classification Systems

論文の概要: Overcoming Common Flaws in the Evaluation of Selective Classification Systems

arxiv url: http://arxiv.org/abs/2407.01032v2
Date: Sat, 19 Oct 2024 11:39:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.296082
Title: Overcoming Common Flaws in the Evaluation of Selective Classification Systems
Title（参考訳）: 選択分類システムの評価における共通欠陥の克服
Authors: Jeremias Traub, Till J. Bungert, Carsten T. Lüth, Michael Baumgartner, Klaus H. Maier-Hein, Lena Maier-Hein, Paul F Jaeger,
Abstract要約: タスクアライメント、解釈可能性、柔軟性に関する選択的な分類において、マルチスレッドメトリクスに対する5つの要件を定義します。本稿では,全要件を満たす総合リスクカバレッジ曲線(mathrmAUGRC$)に基づくエリアを提案する。
参考スコア（独自算出の注目度）: 3.197540295466042
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Selective Classification, wherein models can reject low-confidence predictions, promises reliable translation of machine-learning based classification systems to real-world scenarios such as clinical diagnostics. While current evaluation of these systems typically assumes fixed working points based on pre-defined rejection thresholds, methodological progress requires benchmarking the general performance of systems akin to the $\mathrm{AUROC}$ in standard classification. In this work, we define 5 requirements for multi-threshold metrics in selective classification regarding task alignment, interpretability, and flexibility, and show how current approaches fail to meet them. We propose the Area under the Generalized Risk Coverage curve ($\mathrm{AUGRC}$), which meets all requirements and can be directly interpreted as the average risk of undetected failures. We empirically demonstrate the relevance of $\mathrm{AUGRC}$ on a comprehensive benchmark spanning 6 data sets and 13 confidence scoring functions. We find that the proposed metric substantially changes metric rankings on 5 out of the 6 data sets.
Abstract（参考訳）: モデルが低信頼の予測を拒否できる選択分類は、機械学習に基づく分類システムを、臨床診断のような現実のシナリオに確実に翻訳することを約束する。これらのシステムの現在の評価は、通常、事前に定義された拒絶しきい値に基づいて固定作業点を仮定するが、方法論的な進歩には、標準的な分類において$\mathrm{AUROC}$のようなシステムの一般的な性能をベンチマークする必要がある。本研究では、タスクアライメント、解釈可能性、柔軟性に関する選択的な分類において、マルチスレッドメトリクスに対する5つの要件を定義し、現在のアプローチがそれらを満たすことができないことを示す。本稿では,全要件を満たす一般リスクカバレッジ曲線(\mathrm{AUGRC}$)に基づくエリアを提案する。我々は6つのデータセットと13の信頼スコア関数にまたがる包括的なベンチマークにおいて、$\mathrm{AUGRC}$の妥当性を実証的に示す。その結果,提案手法は6つのデータセットのうち5つの評価値に大きく変化していることがわかった。

関連論文リスト

Trustworthy Classification through Rank-Based Conformal Prediction Sets [9.559062601251464]
本稿では,分類モデルに適したランクベーススコア関数を用いた新しいコンフォメーション予測手法を提案する。提案手法は,そのサイズを管理しながら,所望のカバレッジ率を達成する予測セットを構築する。コントリビューションには、新しい共形予測法、理論的解析、経験的評価が含まれる。
論文参考訳（メタデータ） (2024-07-05T10:43:41Z)
Deep Imbalanced Regression via Hierarchical Classification Adjustment [50.19438850112964]
コンピュータビジョンにおける回帰タスクは、しばしば、対象空間をクラスに定量化することで分類される。トレーニングサンプルの大多数は目標値の先頭にあるが、少数のサンプルは通常より広い尾幅に分布する。不均衡回帰タスクを解くために階層型分類器を構築することを提案する。不均衡回帰のための新しい階層型分類調整(HCA)は,3つのタスクにおいて優れた結果を示す。
論文参考訳（メタデータ） (2023-10-26T04:54:39Z)
Probabilistic Safety Regions Via Finite Families of Scalable Classifiers [2.431537995108158]
監視された分類は、データのパターンを認識して、振る舞いのクラスを分離する。正準解は、機械学習の数値近似の性質に固有の誤分類誤差を含む。本稿では,確率論的安全性領域の概念を導入し,入力空間のサブセットとして,誤分類されたインスタンスの数を確率論的に制御する手法を提案する。
論文参考訳（メタデータ） (2023-09-08T22:40:19Z)
A Universal Unbiased Method for Classification from Aggregate Observations [115.20235020903992]
本稿では,任意の損失に対する分類リスクを非バイアスで推定するCFAOの普遍的手法を提案する。提案手法は,非バイアスリスク推定器によるリスクの整合性を保証するだけでなく,任意の損失に対応できる。
論文参考訳（メタデータ） (2023-06-20T07:22:01Z)
A Call to Reflect on Evaluation Practices for Failure Detection in Image Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文参考訳（メタデータ） (2022-11-28T12:25:27Z)
Parametric Classification for Generalized Category Discovery: A Baseline Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文参考訳（メタデータ） (2022-11-21T18:47:11Z)
Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。 PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文参考訳（メタデータ） (2022-01-26T19:59:14Z)
Binary Classification from Multiple Unlabeled Datasets via Surrogate Set Classification [94.55805516167369]
我々は m 個の U 集合を $mge2$ で二進分類する新しい手法を提案する。我々のキーとなる考え方は、サロゲート集合分類(SSC)と呼ばれる補助的分類タスクを考えることである。
論文参考訳（メタデータ） (2021-02-01T07:36:38Z)
Distribution-Free, Risk-Controlling Prediction Sets [112.9186453405701]
ユーザ特定レベルにおける将来のテストポイントにおける期待損失を制御するブラックボックス予測器から設定値予測を生成する方法を示す。提案手法は,予測セットのサイズをキャリブレーションするホールドアウトセットを用いて,任意のデータセットに対して明確な有限サンプル保証を提供する。
論文参考訳（メタデータ） (2021-01-07T18:59:33Z)
A Skew-Sensitive Evaluation Framework for Imbalanced Data Classification [11.125446871030734]
不均衡なデータセットのクラス分布スキューは、多数派クラスに対する予測バイアスのあるモデルにつながる可能性がある。本稿では,不均衡なデータ分類のための簡易かつ汎用的な評価フレームワークを提案する。
論文参考訳（メタデータ） (2020-10-12T19:47:09Z)
Classifier uncertainty: evidence, potential impact, and probabilistic treatment [0.0]
本稿では,混乱行列の確率モデルに基づいて,分類性能指標の不確かさを定量化する手法を提案する。我々は、不確実性は驚くほど大きく、性能評価を制限できることを示した。
論文参考訳（メタデータ） (2020-06-19T12:49:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。