論文の概要: Beyond ECE: Calibrated Size Ratio, Risk Assessment, and Confidence-Weighted Metrics
- arxiv url: http://arxiv.org/abs/2605.01796v2
- Date: Tue, 05 May 2026 06:11:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 14:45:21.249252
- Title: Beyond ECE: Calibrated Size Ratio, Risk Assessment, and Confidence-Weighted Metrics
- Title(参考訳): ECEを超えて: キャリブレーションされたサイズ比率、リスクアセスメント、信頼性の高いメトリクス
- Authors: Fernando Martin-Maroto, Nabil Abderrahaman, Gonzalo G. de Polavieja,
- Abstract要約: 過信リスク評価は差別的価値の尺度によって補完されなければならないと我々は主張する。
信頼度重み付き精度$mathrmcwA$は自然な補完であり、信頼度重み付けがすべての標準分類基準にまで拡張されていることを示す。
- 参考スコア(独自算出の注目度): 41.99844472131922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Confidence calibration has been dominated by the Expected Calibration Error (ECE), a linear metric that counts calibration offset equally regardless of the confidence level at which it occurs. We show that ECE can remain small even under arbitrarily large overconfidence risk, so we propose Calibrated Size Ratio (CSR) instead, an interpretable metric that equals 1 under perfect calibration, from which we derive the risk probability $P_{\mathrm{risk}}$ that quantifies the statistical evidence for overconfidence. We further argue that overconfidence risk assessment must be complemented by a measure of discriminative value: whether the assigned confidences actively distinguish correct from incorrect predictions. We show that confidence-weighted accuracy $\mathrm{cwA}$ is the natural such complement, and that confidence-weighting extends to all standard classification metrics. In particular, we prove that the confidence-weighted AUC (cwAUC) captures the information about calibration while the classical AUC cannot. We validate the proposed indicators on several synthetic confidence distributions under multiple controlled calibration profiles and find that CSR separates risky from non-risky assignments. We also test the metrics on fifteen real datasets, with and without post-hoc calibration, and find that standard methods can yield risky confidence profiles.
- Abstract(参考訳): 信頼性キャリブレーションは、予測キャリブレーション誤差(ECE)によって支配されている。
そこで我々は、完全キャリブレーションの下で1と等しい解釈可能な計量であるCalibrated Size Ratio (CSR) を提案し、そこからリスク確率$P_{\mathrm{risk}}$を導出し、過信の統計的証拠を定量化する。
さらに、過信リスク評価は差別的価値の尺度によって補完されなければならないと論じる。
信頼度重み付き精度$\mathrm{cwA}$は自然な補完であり、信頼度重み付けがすべての標準分類基準にまで拡張されていることを示す。
特に、信頼度重み付けされたAUC(cwAUC)は、古典的なAUCでは不可能なキャリブレーションに関する情報をキャプチャする。
我々は,複数の制御されたキャリブレーションプロファイルに基づいて,複数の合成信頼度分布の指標を検証し,CSRがリスクを非リスキー代入から分離していることを見出した。
また、15の実際のデータセット上で、時間後キャリブレーションなしでメトリクスをテストし、標準手法がリスクの高い信頼性プロファイルが得られることを発見した。
関連論文リスト
- Calibration Is Not Enough: Evaluating Confidence Estimation Under Language Variations [49.84786015324238]
信頼度推定(CE)は、大きな言語モデル(LLM)の回答がどれほど信頼性が高いかを示し、ユーザの信頼と意思決定に影響を与える可能性がある。
本稿では,CEの信頼性を3つの新しい側面で評価する総合評価フレームワークを提案する。
これには、急激な摂動に対する自信の堅牢性、意味論的に等価な答えに対する安定性、意味論的に異なる答えに対する感受性が含まれる。
論文 参考訳(メタデータ) (2026-01-12T23:16:50Z) - Geometric Calibration and Neutral Zones for Uncertainty-Aware Multi-Class Classification [0.0]
この研究は情報幾何学と統計的学習を橋渡しし、厳密な検証を必要とするアプリケーションにおいて不確実性を認識した分類の正式な保証を提供する。
アデノ関連ウイルスの分類に関する実証的な検証は、2段階のフレームワークが72.5%のエラーをキャプチャし、34.5%のサンプルを遅延させ、自動決定エラー率を16.8%から6.9%に下げていることを示している。
論文 参考訳(メタデータ) (2025-11-26T01:29:49Z) - Annotation-Efficient Universal Honesty Alignment [70.05453324928955]
既存の手法では、トレーニングなしの信頼度推定や、正当性アノテーションによるトレーニングベースキャリブレーションに頼っている。
Elicitation-Then-Calibration (EliCal) は、まず安価な自己整合性監視を用いて内部信頼を引き出す2段階のフレームワークである。
EliCalは1kの正当性アノテーション(全監督の0.18%)でほぼ最適アライメントを実現し、キャリブレーションのみのベースラインよりも目立たないMMLUタスクでのアライメント性能が向上した。
論文 参考訳(メタデータ) (2025-10-20T13:05:22Z) - Uncertainty-Aware Post-Hoc Calibration: Mitigating Confidently Incorrect Predictions Beyond Calibration Metrics [6.9681910774977815]
本稿では、校正品質と不確実性を考慮した意思決定を向上させるためのポストホック校正フレームワークを提案する。
校正基準,不確実性認識性能測定,実証的コンフォメーションカバレッジを用いて総合評価を行った。
実験により,提案手法はイソトニックおよび焦点損失ベースラインと比較して,信頼性の低い予測精度と競合予測誤差を実現することが示された。
論文 参考訳(メタデータ) (2025-10-19T23:55:36Z) - CCE: Confidence-Consistency Evaluation for Time Series Anomaly Detection [56.302586730134806]
本稿では,新しい評価指標である信頼性・一貫性評価(CCE)を紹介する。
CCEは同時に、予測の信頼性と不確実性を測定する。
RankEvalは、さまざまなメトリクスのランキング機能を比較するためのベンチマークです。
論文 参考訳(メタデータ) (2025-09-01T03:38:38Z) - Trust, or Don't Predict: Introducing the CWSA Family for Confidence-Aware Model Evaluation [0.0]
信頼性重み付き選択精度(CWSA)と正規化変種CWSA+を紹介する。
CWSAは、信頼しきい値の下で予測モデルを評価するための原則的で解釈可能な方法を提供する。
CWSAとCWSA+は、信頼度の高いテストにおいて、ニュアンスド障害モードを効果的に検出し、古典的な指標より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-24T10:07:48Z) - Adaptive Set-Mass Calibration with Conformal Prediction [60.47079469141295]
提案手法は,まず共形予測から始まり,所望のカバレッジを与えるラベルの集合を得る。
次に、共形制約に合わせて、質量正規化と温度スケーリングに基づくルールの2つの簡単なポストホックキャリブレータをインスタンス化する。
論文 参考訳(メタデータ) (2025-05-21T12:18:15Z) - Assessing the Probabilistic Fit of Neural Regressors via Conditional Congruence [2.13382635602206]
このミスアライメントを測定するための既存のアプローチは、主にキャリブレーションの枠組みの下で開発されている。
本稿では,CCE(Congruence Error)という,学習した予測分布とデータセット内の経験的条件分布との間の距離を,条件付きカーネルの平均埋め込みを用いて推定する手法を提案する。
我々は高次元回帰タスクを行い、CCEが4つの重要な特性を示すことを示す: $textitcorrectness$, $textitmonotonicity$, $textitreliability$, $textitrobustness$。
論文 参考訳(メタデータ) (2024-05-20T23:30:07Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z) - Two Sides of Miscalibration: Identifying Over and Under-Confidence
Prediction for Network Calibration [1.192436948211501]
安全クリティカルなタスクにおける信頼性予測には、ディープニューラルネットワークの信頼性校正が不可欠である。
ミススキャリブレーションは、過信と/または過信をモデル化する。
校正点とクラス別校正点を同定するために,新しい校正点である校正点を導入する。
クラスワイドの誤校正スコアをプロキシとして使用して,過度かつ過度に対処可能な校正手法を設計する。
論文 参考訳(メタデータ) (2023-08-06T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。