論文の概要: Performance Estimation in Binary Classification Using Calibrated Confidence
- arxiv url: http://arxiv.org/abs/2505.05295v1
- Date: Thu, 08 May 2025 14:34:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.923448
- Title: Performance Estimation in Binary Classification Using Calibrated Confidence
- Title(参考訳): Calibated Confidence を用いたバイナリ分類の性能評価
- Authors: Juhani Kivimäki, Jakub Białek, Wojtek Kuberski, Jukka K. Nurminen,
- Abstract要約: 混乱行列を用いて定義された任意の二項分類基準を推定できる新しい手法CBPEを提案する。
CBPEは強い理論的保証と有効な信頼区間を持つ推定値を生成する。
- 参考スコア(独自算出の注目度): 0.5399800035598186
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Model monitoring is a critical component of the machine learning lifecycle, safeguarding against undetected drops in the model's performance after deployment. Traditionally, performance monitoring has required access to ground truth labels, which are not always readily available. This can result in unacceptable latency or render performance monitoring altogether impossible. Recently, methods designed to estimate the accuracy of classifier models without access to labels have shown promising results. However, there are various other metrics that might be more suitable for assessing model performance in many cases. Until now, none of these important metrics has received similar interest from the scientific community. In this work, we address this gap by presenting CBPE, a novel method that can estimate any binary classification metric defined using the confusion matrix. In particular, we choose four metrics from this large family: accuracy, precision, recall, and F$_1$, to demonstrate our method. CBPE treats the elements of the confusion matrix as random variables and leverages calibrated confidence scores of the model to estimate their distributions. The desired metric is then also treated as a random variable, whose full probability distribution can be derived from the estimated confusion matrix. CBPE is shown to produce estimates that come with strong theoretical guarantees and valid confidence intervals.
- Abstract(参考訳): モデル監視は、マシンラーニングライフサイクルの重要なコンポーネントであり、デプロイ後のモデルのパフォーマンスにおいて、検出されていないドロップに対して保護する。
従来、パフォーマンス監視には、必ずしも容易に利用できない、地上の真理ラベルへのアクセスが必要だった。
これにより、許容できないレイテンシやパフォーマンス監視が完全に不可能になる可能性がある。
近年,ラベルにアクセスせずに分類器モデルの精度を推定する手法が提案されている。
しかし、多くの場合、モデルパフォーマンスを評価するのにより適した様々なメトリクスがあります。
これまでのところ、これらの重要な指標には科学界から同様の関心が寄せられていない。
そこで本研究では,混乱行列を用いて定義した任意の二項分類基準を推定できるCBPEを提示することで,このギャップに対処する。
特に、この大家族から精度、精度、リコール、F$_1$という4つの指標を選択して、その手法を実証する。
CBPEは混乱行列の要素をランダム変数として扱い、モデルの校正された信頼スコアを利用して分布を推定する。
所望の計量も確率変数として扱われ、その全確率分布は推定された混乱行列から導出される。
CBPEは強い理論的保証と有効な信頼区間を持つ推定値を生成する。
関連論文リスト
- Model Evaluation in the Dark: Robust Classifier Metrics with Missing Labels [2.384873896423002]
本稿では,精度,リコール,ROC-AUCなどの指標を用いて分類器の評価を行うための多重計算手法を提案する。
予測分布の位置と形状が一般的に正しいことを実証的に示す。
論文 参考訳(メタデータ) (2025-04-25T14:31:42Z) - A comprehensive review of classifier probability calibration metrics [0.0]
AIとMLモデルが生成する確率や信頼度は、その真の正確さを反映しないことが多い。
確率キャリブレーション測度は、信頼性と精度の差を測定する。
論文 参考訳(メタデータ) (2025-04-25T11:44:44Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Beyond Calibration: Assessing the Probabilistic Fit of Neural Regressors via Conditional Congruence [2.2359781747539396]
ディープネットワークは、しばしば過剰な自信と不一致な予測分布に悩まされる。
本稿では,条件付きカーネルの平均埋め込みを用いて,学習した予測分布とデータセットにおける経験的条件分布との距離を推定する,条件付きコングルーエンス誤差(CCE)について紹介する。
本研究では,1)データ生成プロセスが知られている場合の分布間の不一致を正確に定量化し,2)実世界の高次元画像回帰タスクに効果的にスケールし,3)未知のインスタンス上でのモデルの信頼性を評価することができることを示す。
論文 参考訳(メタデータ) (2024-05-20T23:30:07Z) - Never mind the metrics -- what about the uncertainty? Visualising
confusion matrix metric distributions [6.566615606042994]
本稿では,不確実性の異なるモデル下での分布を明らかにすることにより,分類器の性能指標について,よりバランスのとれた視点を求める。
我々は、このROC空間内の(そしてそれ以上の)パフォーマンスメトリクスの輪郭の方程式、アニメーション、インタラクティブな可視化を開発します。
私たちの期待は、これらの洞察と視覚化によって、パフォーマンス指標の推定における実質的な不確実性に対する認識がより高くなることです。
論文 参考訳(メタデータ) (2022-06-05T11:54:59Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Classifier uncertainty: evidence, potential impact, and probabilistic
treatment [0.0]
本稿では,混乱行列の確率モデルに基づいて,分類性能指標の不確かさを定量化する手法を提案する。
我々は、不確実性は驚くほど大きく、性能評価を制限できることを示した。
論文 参考訳(メタデータ) (2020-06-19T12:49:19Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。