論文の概要: Making and Evaluating Calibrated Forecasts
- arxiv url: http://arxiv.org/abs/2510.06388v1
- Date: Tue, 07 Oct 2025 19:11:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.162683
- Title: Making and Evaluating Calibrated Forecasts
- Title(参考訳): キャリブレーション予測の作成と評価
- Authors: Yuxuan Lu, Yifan Wu, Jason Hartline, Lunjia Hu,
- Abstract要約: マルチクラス予測タスクに対して,完全真正なキャリブレーション尺度を導入する。
我々は,キャリブレーション法が優れたロバスト性を示すことを数学的に証明し,実証的に検証する。
この結果は、binned ECEの非ロバスト性問題に対処する。
- 参考スコア(独自算出の注目度): 10.153382419318023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Calibrated predictions can be reliably interpreted as probabilities. An important step towards achieving better calibration is to design an appropriate calibration measure to meaningfully assess the miscalibration level of a predictor. A recent line of work initiated by Haghtalab et al. [2024] studies the design of truthful calibration measures: a truthful measure is minimized when a predictor outputs the true probabilities, whereas a non-truthful measure incentivizes the predictor to lie so as to appear more calibrated. All previous calibration measures were non-truthful until Hartline et al. [2025] introduced the first perfectly truthful calibration measures for binary prediction tasks in the batch setting. We introduce a perfectly truthful calibration measure for multi-class prediction tasks, generalizing the work of Hartline et al. [2025] beyond binary prediction. We study common methods of extending calibration measures from binary to multi-class prediction and identify ones that do or do not preserve truthfulness. In addition to truthfulness, we mathematically prove and empirically verify that our calibration measure exhibits superior robustness: it robustly preserves the ordering between dominant and dominated predictors, regardless of the choice of hyperparameters (bin sizes). This result addresses the non-robustness issue of binned ECE, which has been observed repeatedly in prior work.
- Abstract(参考訳): 校正された予測は確率として確実に解釈できる。
より良い校正を達成するための重要なステップは、予測器の誤校正レベルを有意に評価する適切な校正尺度を設計することである。
Haghtalab et al [2024] によって始められた最近の研究は、真正の校正尺度の設計を研究している: 真正の尺度は、予測者が真の確率を出力したときに最小化されるが、非真正の尺度は、より校正されたように見えるように予測者が嘘をつくように動機づける。
これまでのキャリブレーション対策は、Hartlineらによってバッチ設定におけるバイナリ予測タスクのための完全真正なキャリブレーション対策が導入された2025年までは、すべて具体的ではなかった。
マルチクラス予測タスクに対する完全真正なキャリブレーション尺度を導入し、Hartline et al [2025] の作業が二進予測を超えたことを一般化する。
本研究では,二分法から多クラス予測までキャリブレーションを拡大する一般的な手法について検討し,真理を保たないものを特定する。
真理性に加えて、我々のキャリブレーション測度が優れたロバスト性を示すことを数学的に証明し、実証的に検証する:これは、ハイパーパラメータ(2つのサイズ)の選択に関係なく、支配的および支配的な予測者間の順序を頑健に保持する。
この結果は, 従来から繰り返し観測されてきたブリンドECEの非破壊性問題に対処するものである。
関連論文リスト
- A Perfectly Truthful Calibration Measure [14.052397440160568]
バッチ設定における完全真正なキャリブレーション尺度を設計する:平均2ビンキャリブレーション誤差(ATB)
ATBは、スムーズな校正誤差(smCal)と(より低い)キャリブレーション距離(distCal)の2つの既存の校正措置に、音、完全、連続、および二次的に関係している。
論文 参考訳(メタデータ) (2025-08-18T17:09:34Z) - Rethinking Early Stopping: Refine, Then Calibrate [49.966899634962374]
キャリブレーション・リファインメント分解の新規な変分定式化について述べる。
我々は,校正誤差と精錬誤差が訓練中に同時に最小化されないという理論的,実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-01-31T15:03:54Z) - Truthfulness of Calibration Measures [18.21682539787221]
キャリブレーションの指標は、予測者が次の結果の条件付き期待を予測することによって期待されるペナルティを最小化した場合に真実とされる。
これにより、音の良さや完全さといった典型的な要件とともに、校正措置に欠かせないデシプラタムとなる。
本稿では, 正当性予測を一定乗算係数まで最適とする, Subsampled Smooth Error (SSCE) と呼ばれる新たなキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T02:07:55Z) - Towards Certification of Uncertainty Calibration under Adversarial Attacks [96.48317453951418]
攻撃はキャリブレーションを著しく損なう可能性を示し, 対向的摂動下でのキャリブレーションにおける最悪のキャリブレーション境界として認定キャリブレーションを提案する。
我々は,新しいキャリブレーション攻撃を提案し,テクスタディバーショナルキャリブレーショントレーニングによりモデルキャリブレーションを改善する方法を示す。
論文 参考訳(メタデータ) (2024-05-22T18:52:09Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z) - Boldness-Recalibration for Binary Event Predictions [0.0]
理想的には、確率予測は(i)よく校正され、(ii)正確であり、(iii)大胆な、すなわち、意思決定に十分な情報を伝達する。
キャリブレーションと大胆さの間には根本的な緊張があり、予測が過度に慎重になったらキャリブレーションの指標が高くなる可能性がある。
本研究の目的は,キャリブレーション評価のためのベイズモデル選択に基づくアプローチと,大胆度補正のための戦略を開発することである。
論文 参考訳(メタデータ) (2023-05-05T18:14:47Z) - Unsupervised Calibration under Covariate Shift [92.02278658443166]
ドメインシフト下でのキャリブレーションの問題を導入し、それに対処するための重要サンプリングに基づくアプローチを提案する。
実世界のデータセットと合成データセットの両方において,本手法の有効性を評価し検討した。
論文 参考訳(メタデータ) (2020-06-29T21:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。