論文の概要: CalArena: A Large-Scale Post-Hoc Calibration Benchmark
- arxiv url: http://arxiv.org/abs/2605.30188v1
- Date: Thu, 28 May 2026 16:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.536546
- Title: CalArena: A Large-Scale Post-Hoc Calibration Benchmark
- Title(参考訳): CalArena: 大規模ポストホック校正ベンチマーク
- Authors: Eugène Berta, David Holzmüller, Francis Bach, Michael I. Jordan,
- Abstract要約: ポストホックキャリブレーションのための大規模で標準化されたベンチマークを導入する。
私たちのベンチマークでは、さまざまな古典モデル、現代的なディープラーニングアーキテクチャ、基礎モデルからの予測を集約しています。
適切なスコアリングルールにおけるポストホック改善(PHI)は、従来のキャリブレーション誤差推定器に代わる原則的な代替手段であると主張する。
- 参考スコア(独自算出の注目度): 48.0798861811642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable probability estimates are critical in many machine learning applications, yet modern classifiers are often poorly calibrated. Post-hoc calibration provides a simple and widely used solution, but the large number of proposed methods, combined with small-scale and inconsistent evaluations, makes it difficult to determine which approaches are truly effective in practice. We introduce a large-scale, standardized benchmark for post-hoc calibration, covering nearly 2000 experiments across tabular and computer vision tasks, including binary, multiclass, and large-scale classification settings. Our benchmark aggregates predictions from a diverse set of classical models, modern deep learning architectures, and foundation models, and provides unified, reproducible implementations of dozens of calibration methods within a common evaluation framework. We argue that Post-Hoc Improvement (PHI) in proper scoring rules offers a principled alternative to traditional calibration error estimators for comparing post-hoc methods, capturing both calibration quality and potential degradation to the model's predictive performance. Using this framework, we conduct the most comprehensive empirical study of post-hoc calibration to date. Our results reveal consistent patterns across domains: smooth calibration functions outperform binning-based approaches, dedicated multiclass methods are essential in high-dimensional settings, and generic machine learning models are not competitive without calibration-specific design. To facilitate future research, we release all data, code, and evaluation tools, providing a plug-and-play benchmark for developing and comparing calibration methods.
- Abstract(参考訳): 多くの機械学習アプリケーションでは信頼性の高い確率推定が重要であるが、現代の分類器は校正が不十分であることが多い。
ポストホックキャリブレーションは単純で広く使われている解であるが,提案手法と小規模かつ一貫性のない評価を組み合わせることで,どの手法が実際に有効なのかを判断することが困難である。
本稿では,2次,複数クラス,大規模分類設定を含む表型およびコンピュータビジョンタスクにおける2000近い実験を対象とする,ポストホック校正のための大規模で標準化されたベンチマークを紹介する。
我々のベンチマークは、様々な古典的モデル、現代のディープラーニングアーキテクチャ、基礎モデルからの予測を集約し、共通の評価フレームワーク内で数十のキャリブレーション手法の統一的で再現可能な実装を提供する。
我々は、適切なスコアリングルールにおけるポストホック改善(PHI)は、従来のキャリブレーション誤差推定法に代えて、キャリブレーション品質とモデル予測性能の潜在的な劣化の両方をキャプチャして、ポストホック法の比較を行う。
この枠組みを用いて, これまでに最も包括的なポストホックキャリブレーションの実証的研究を行った。
この結果から,スムーズなキャリブレーション関数はビンニング方式よりも優れており,高次元設定では専用のマルチクラス手法が不可欠であり,汎用機械学習モデルはキャリブレーション特化設計なしでは競合しないことがわかった。
今後の研究を容易にするため,キャリブレーション手法の開発と比較を行うためのプラグイン・アンド・プレイ・ベンチマークとして,すべてのデータ,コード,評価ツールをリリースする。
関連論文リスト
- Structured Matrix Scaling for Multi-Class Calibration [48.07988618116422]
ポストホック補正法は、分類器が忠実な確率推定を提供することを保証するために広く用いられている。
我々は、ロジスティック回帰に基づくパラメトリック回帰関数は、二項分類と多項分類の両方の単純な理論的設定から動機付けることができると論じる。
論文 参考訳(メタデータ) (2025-11-05T18:09:14Z) - Scalable Utility-Aware Multiclass Calibration [53.28176049547449]
ユーティリティキャリブレーション(英: Utility calibration)は、特定のユーティリティ関数に対するキャリブレーション誤差を測定する一般的なフレームワークである。
我々は、このフレームワークが既存のキャリブレーションメトリクスを統一し、再解釈する方法を実証する。
論文 参考訳(メタデータ) (2025-10-29T12:32:14Z) - Rethinking Early Stopping: Refine, Then Calibrate [49.966899634962374]
キャリブレーション・リファインメント分解の新規な変分定式化について述べる。
我々は,校正誤差と精錬誤差が訓練中に同時に最小化されないという理論的,実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-01-31T15:03:54Z) - Classifier Ensemble for Efficient Uncertainty Calibration of Deep Neural Networks for Image Classification [1.0649605625763086]
我々は、期待誤差(ECE)と最大誤差(MCE)に着目し、精度と校正基準の両方を評価する。
我々の研究は、多数決投票やメタモデルに基づくアプローチを含む、単純で効率的な分類器アンサンブルを構築するための様々な方法を比較している。
論文 参考訳(メタデータ) (2025-01-17T10:16:18Z) - On Calibrating Semantic Segmentation Models: Analyses and An Algorithm [51.85289816613351]
セマンティックセグメンテーションキャリブレーションの問題について検討する。
モデルキャパシティ、作物サイズ、マルチスケールテスト、予測精度はキャリブレーションに影響を及ぼす。
我々は、単純で統一的で効果的なアプローチ、すなわち選択的スケーリングを提案する。
論文 参考訳(メタデータ) (2022-12-22T22:05:16Z) - Uncertainty Quantification and Deep Ensembles [79.4957965474334]
ディープアンサンブルが必ずしもキャリブレーション特性の改善につながるとは限らないことを示す。
そこで本研究では,混成正規化などの現代的な手法と併用して標準アンサンブル法を用いることで,キャリブレーションの少ないモデルが得られることを示す。
このテキストは、データが不足しているときにディープラーニングを活用するために、最も単純で一般的な3つのアプローチの相互作用を調べる。
論文 参考訳(メタデータ) (2020-07-17T07:32:24Z) - Multi-Class Uncertainty Calibration via Mutual Information
Maximization-based Binning [8.780958735684958]
ポストホック多クラスキャリブレーションは、ディープニューラルネットワーク予測の信頼度推定を提供する一般的なアプローチである。
近年の研究では、広く使われているスケーリング手法がキャリブレーション誤差を過小評価していることが示されている。
類似クラス間で1つのキャリブレータを共有する共有クラスワイド(sCW)キャリブレーション戦略を提案する。
論文 参考訳(メタデータ) (2020-06-23T15:31:59Z) - Mix-n-Match: Ensemble and Compositional Methods for Uncertainty
Calibration in Deep Learning [21.08664370117846]
我々は,Mix-n-Matchキャリブレーション戦略が,データ効率と表現力を大幅に向上することを示す。
標準評価プラクティスの潜在的な問題も明らかにします。
我々の手法はキャリブレーションと評価タスクの両方において最先端のソリューションより優れている。
論文 参考訳(メタデータ) (2020-03-16T17:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。