FuguReport

Beyond ECE: Calibrated Size Ratio, Risk Assessment, and Confidence-Weighted Metrics

著者 Fernando Martin-Maroto, Nabil Abderrahaman, Gonzalo G. de Polavieja
所属 Champalimaud Research / Algebraic AI
カテゴリ Evaluation / Risk Assessment / Evaluating overconfidence risk, Evaluation / Calibration Metrics / Calibrated confidence measurements, Evaluation / Classification Evaluation / Confidence-weighted classification metrics
ライセンス CC BY 4.0

Abstractの概要

本論文は、Expected Calibration Error(ECE)が過信リスクの評価に不十分であることを主張している。ECEは任意に大きな過信リスクの下でも小さい値を維持し得るためである。著者らは、完全なキャリブレーション下で1となる解釈可能な指標であるCalibrated Size Ratio(CSR)を導入し、正規近似から導出されるz スコアベースの過信リスク確率を併せて提案している。また、信頼度スコアが正しい予測と誤った予測を有意義に区別するかどうかの補完的指標として信頼度重み付き精度(cwA)を提案し、AUCを含む標準的な分類指標への信頼度重み付けの拡張を行っている。本研究は、理論的分析と合成信頼度分布(10分布×8キャリブレーションモード)および15の実データセット(生出力、isotonic、Plattキャリブレーション済みXGBoost出力を含む)に対する実験を組み合わせている。

新規性

本論文の主な新規性は、信頼度評価をCSRによる過信リスク(モンテカルロリサンプリングを必要としない閉形式の正規近似リスク確率)と、cwAやcwAUCなどの信頼度重み付き指標による識別的有用性という2つの異なる要素に分離した点にある。また、古典的AUCが単調再キャリブレーションに対して不変であるのに対し、cwAUCはペアワイズ信頼度重みを通じてキャリブレーションに敏感であることを証明し、cwAUC − AUCがキャリブレーションによって追加される識別的価値を捉えることを示している。

成果

合成実験(10分布、8キャリブレーションモード、各100回反復)において、CSRは完全キャリブレーション下で1付近を維持し、経験的偽陽性率は理論的予測に近く、P_riskは過信状態とキャリブレーション済みまたは過小信頼状態を確実に分離した。15の実データセットでは、isotonicキャリブレーションは信頼度重み付き性能を平均的に向上させた(cwA = 0.8841)が、リスクを劇的に増加させ(15データセット中10が3σを超過)、一方Plattスケーリングは最も安全なプロファイル(15データセット中0が3σ超過、P_risk = 21.96%)を示しつつ、競争力のある信頼度重み付き精度を達成した。

論文の注目点

  1. CSRは過信リスクに特化したキャリブレーション指標として提案され、完全キャリブレーション下で1となり、正規近似ベースのzスコアによりモンテカルロリサンプリング不要でNの増加とともに改善するリスク確率P_riskを算出する。
  2. cwAは正しい予測に割り当てられた総信頼度質量の割合を測定し、信頼度重み付けアプローチはキャリブレーション感度を持つcwAUCを含む、信頼度重み付き混同行列の構造的関係を通じて全ての標準分類指標に拡張可能であることが証明されている。
  3. 実証結果は、低いECEが安全性を保証しないことを示し(命題5により構成的に証明)、実データではisotonicキャリブレーションがcwAを改善する一方で過信リスクを壊滅的に増加させ、Plattスケーリングが最も安全なプロファイルを提供することを実証している。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。