論文の概要: Classifier Calibration at Scale: An Empirical Study of Model-Agnostic Post-Hoc Methods
- arxiv url: http://arxiv.org/abs/2601.19944v1
- Date: Mon, 19 Jan 2026 18:23:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.593828
- Title: Classifier Calibration at Scale: An Empirical Study of Model-Agnostic Post-Hoc Methods
- Title(参考訳): スケールにおける分類器の校正:モデルに依存しないポストホック法に関する実証的研究
- Authors: Valery Manokhin, Daniel Grønhaug,
- Abstract要約: 教師付き二項分類における確率的予測を改善するためのモデル非依存のポストホック校正法について検討した。
我々は、線形モデル、SVM、ツリーアンサンブル(CatBoost、XGBoost、LightGBM)を含む21の広く使われている分類器をベンチマークした。
一般的な校正手順,特にプラットスケーリングと等調回帰は,適切なスコアリング性能を体系的に低下させる可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We study model-agnostic post-hoc calibration methods intended to improve probabilistic predictions in supervised binary classification on real i.i.d. tabular data, with particular emphasis on conformal and Venn-based approaches that provide distribution-free validity guarantees under exchangeability. We benchmark 21 widely used classifiers, including linear models, SVMs, tree ensembles (CatBoost, XGBoost, LightGBM), and modern tabular neural and foundation models, on binary tasks from the TabArena-v0.1 suite using randomized, stratified five-fold cross-validation with a held-out test fold. Five calibrators; Isotonic regression, Platt scaling, Beta calibration, Venn-Abers predictors, and Pearsonify are trained on a separate calibration split and applied to test predictions. Calibration is evaluated using proper scoring rules (log-loss and Brier score) and diagnostic measures (Spiegelhalter's Z, ECE, and ECI), alongside discrimination (AUC-ROC) and standard classification metrics. Across tasks and architectures, Venn-Abers predictors achieve the largest average reductions in log-loss, followed closely by Beta calibration, while Platt scaling exhibits weaker and less consistent effects. Beta calibration improves log-loss most frequently across tasks, whereas Venn-Abers displays fewer instances of extreme degradation and slightly more instances of extreme improvement. Importantly, we find that commonly used calibration procedures, most notably Platt scaling and isotonic regression, can systematically degrade proper scoring performance for strong modern tabular models. Overall classification performance is often preserved, but calibration effects vary substantially across datasets and architectures, and no method dominates uniformly. In expectation, all methods except Pearsonify slightly increase accuracy, but the effect is marginal, with the largest expected gain about 0.008%.
- Abstract(参考訳): 本研究では,実測表データに基づく教師付きバイナリ分類における確率的予測を改善することを目的としたモデル非依存のポストホックキャリブレーション手法について検討する。
我々は、線形モデル、SVM、ツリーアンサンブル(CatBoost、XGBoost、LightGBM)、現代的な表型ニューラルネットワークおよび基礎モデルを含む21の広く使われている分類器を、ランダム化された5倍のクロスバリデーションとホールドアウトテストフォールドを用いたTabArena-v0.1スイートのバイナリタスクでベンチマークした。
アイソトニック回帰、プラットスケーリング、ベータキャリブレーション、Venn-Abers予測器、Pearsonifyの5つのキャリブレータは、別個のキャリブレーション分割に基づいてトレーニングされ、テスト予測に適用される。
キャリブレーションは適切なスコアリングルール(log-loss and Brier score)と診断基準(Spiegelhalter's Z, ECE, ECI)と、識別基準(AUC-ROC)と標準分類基準を用いて評価される。
タスクやアーキテクチャ全体にわたって、Venn-Abers予測器はログロスの最大平均削減を実現し、ベータ校正に近づき、Plattスケーリングはより弱く一貫性の低い効果を示す。
ベータキャリブレーションはタスク間でのログロスを最も頻繁に改善する一方、Venn-Abersでは極端な劣化のインスタンスが少なく、極端な改善のインスタンスがわずかに多い。
重要なことは、一般的なキャリブレーション手順、特にプラットスケーリングと等調回帰は、強力な現代的な表形式モデルに対する適切なスコアリング性能を体系的に低下させることである。
全体的な分類性能は保存されることが多いが、キャリブレーション効果はデータセットやアーキテクチャによって大きく異なり、どの手法も一様ではない。
予想では、ピアソンフィケーション以外の全ての手法は精度をわずかに向上させるが、その効果は限界であり、予想される最大値は0.008%である。
関連論文リスト
- Improving Multi-Class Calibration through Normalization-Aware Isotonic Techniques [3.2514496966247535]
多クラスキャリブレーションのための新しいアイソトニック正規化対応手法を提案する。
従来の手法とは異なり、本手法は本質的に確率正規化を考慮に入れている。
提案手法は, 負の対数類似度(NLL)と期待校正誤差(ECE)を常に改善する。
論文 参考訳(メタデータ) (2025-12-09T19:15:19Z) - CalibrateMix: Guided-Mixup Calibration of Image Semi-Supervised Models [49.588973929678765]
CalibrateMixは、SSLモデルのキャリブレーションを改善することを目的とした、ミックスアップベースのアプローチである。
提案手法は,既存のSSL手法と比較して,期待校正誤差(ECE)の低減と精度の向上を実現している。
論文 参考訳(メタデータ) (2025-11-17T04:43:53Z) - ForeCal: Random Forest-based Calibration for DNNs [0.0]
我々はランダム森林に基づく新しいポストホックキャリブレーションアルゴリズムであるForeCalを提案する。
ForeCalはランダム森林の2つのユニークな特性を生かしている。
ForeCal は,AUC が測定した基準の識別力に最小限の影響を与え,予測誤差(ECE) で既存手法より優れることを示す。
論文 参考訳(メタデータ) (2024-09-04T04:56:41Z) - Model Calibration in Dense Classification with Adaptive Label
Perturbation [44.62722402349157]
既存の密接な二分分類モデルは、過信される傾向がある。
本稿では,各トレーニング画像に対する独自のラベル摂動レベルを学習する適応ラベル摂動(ASLP)を提案する。
ASLPは、分布内および分布外の両方のデータに基づいて、密度の高い二分分類モデルの校正度を著しく改善することができる。
論文 参考訳(メタデータ) (2023-07-25T14:40:11Z) - On Calibrating Semantic Segmentation Models: Analyses and An Algorithm [51.85289816613351]
セマンティックセグメンテーションキャリブレーションの問題について検討する。
モデルキャパシティ、作物サイズ、マルチスケールテスト、予測精度はキャリブレーションに影響を及ぼす。
我々は、単純で統一的で効果的なアプローチ、すなわち選択的スケーリングを提案する。
論文 参考訳(メタデータ) (2022-12-22T22:05:16Z) - Sample-dependent Adaptive Temperature Scaling for Improved Calibration [95.7477042886242]
ニューラルネットワークの誤りを補うポストホックアプローチは、温度スケーリングを実行することだ。
入力毎に異なる温度値を予測し、信頼度と精度のミスマッチを調整することを提案する。
CIFAR10/100およびTiny-ImageNetデータセットを用いて,ResNet50およびWideResNet28-10アーキテクチャ上で本手法をテストする。
論文 参考訳(メタデータ) (2022-07-13T14:13:49Z) - Multi-Class Uncertainty Calibration via Mutual Information
Maximization-based Binning [8.780958735684958]
ポストホック多クラスキャリブレーションは、ディープニューラルネットワーク予測の信頼度推定を提供する一般的なアプローチである。
近年の研究では、広く使われているスケーリング手法がキャリブレーション誤差を過小評価していることが示されている。
類似クラス間で1つのキャリブレータを共有する共有クラスワイド(sCW)キャリブレーション戦略を提案する。
論文 参考訳(メタデータ) (2020-06-23T15:31:59Z) - Calibration of Neural Networks using Splines [51.42640515410253]
キャリブレーション誤差の測定は、2つの経験的分布を比較します。
古典的コルモゴロフ・スミルノフ統計テスト(KS)にインスパイアされたビンニングフリーキャリブレーション尺度を導入する。
提案手法は,KS誤差に対する既存の手法と,他の一般的なキャリブレーション手法とを一貫して比較する。
論文 参考訳(メタデータ) (2020-06-23T07:18:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。