論文の概要: Evaluating the Quality of the Quantified Uncertainty for (Re)Calibration of Data-Driven Regression Models
- arxiv url: http://arxiv.org/abs/2508.17761v1
- Date: Mon, 25 Aug 2025 07:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.683267
- Title: Evaluating the Quality of the Quantified Uncertainty for (Re)Calibration of Data-Driven Regression Models
- Title(参考訳): データ駆動回帰モデルの(再)校正のための定量不確かさの評価
- Authors: Jelke Wibbeke, Nico Schönfisch, Sebastian Rohjans, Andreas Rauh,
- Abstract要約: 安全クリティカルなアプリケーションでは、データ駆動モデルは正確で、信頼性の高い不確実性推定を提供する必要がある。
回帰において、様々なキャリブレーション指標と再校正手法が出現している。
ほとんどのリカバリ手法は、測定基準の小さな部分だけを用いて評価されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In safety-critical applications data-driven models must not only be accurate but also provide reliable uncertainty estimates. This property, commonly referred to as calibration, is essential for risk-aware decision-making. In regression a wide variety of calibration metrics and recalibration methods have emerged. However, these metrics differ significantly in their definitions, assumptions and scales, making it difficult to interpret and compare results across studies. Moreover, most recalibration methods have been evaluated using only a small subset of metrics, leaving it unclear whether improvements generalize across different notions of calibration. In this work, we systematically extract and categorize regression calibration metrics from the literature and benchmark these metrics independently of specific modelling methods or recalibration approaches. Through controlled experiments with real-world, synthetic and artificially miscalibrated data, we demonstrate that calibration metrics frequently produce conflicting results. Our analysis reveals substantial inconsistencies: many metrics disagree in their evaluation of the same recalibration result, and some even indicate contradictory conclusions. This inconsistency is particularly concerning as it potentially allows cherry-picking of metrics to create misleading impressions of success. We identify the Expected Normalized Calibration Error (ENCE) and the Coverage Width-based Criterion (CWC) as the most dependable metrics in our tests. Our findings highlight the critical role of metric selection in calibration research.
- Abstract(参考訳): 安全クリティカルなアプリケーションでは、データ駆動モデルは正確であるだけでなく、確実な不確実性の推定を提供する必要がある。
この性質は一般的にキャリブレーションと呼ばれ、リスクを意識した意思決定に不可欠である。
回帰において、様々なキャリブレーション指標と再校正手法が出現している。
しかしながら、これらの指標は定義、仮定、スケールにおいて著しく異なるため、研究全体で結果を解釈し比較することは困難である。
さらに、ほとんどのリカバリ手法は、測定基準のごく一部だけを用いて評価されており、改善がキャリブレーションの異なる概念にまたがって一般化されるかどうかは不明である。
本研究では、文献から回帰校正指標を体系的に抽出し分類し、特定のモデリング手法や再校正手法とは無関係にこれらの指標をベンチマークする。
実世界, 人工的, 人工的, 誤校正されたデータによる制御実験により, 校正基準が相反する結果をもたらすことが実証された。
多くのメトリクスは、同じ校正結果の評価に異を唱えており、矛盾する結論を示すものもある。
この矛盾は特に関係があり、メトリクスのチェリーピッキングによって、成功の誤解を招く印象を生み出す可能性がある。
我々は、期待される正規校正誤差(ENCE)とCWC(Coverage Width-based Criterion)を、我々のテストで最も信頼性の高い指標として挙げる。
校正研究におけるメートル法選択の重要性について考察した。
関連論文リスト
- From Uncertainty to Precision: Enhancing Binary Classifier Performance
through Calibration [0.3495246564946556]
モデル予測スコアはイベント確率として一般的に見なされるので、キャリブレーションは正確な解釈に不可欠である。
歪み評価のための様々なキャリブレーション尺度の感度を解析し,改良された指標であるローカルスコアを導入する。
これらの知見をランダムフォレスト分類器と回帰器を用いて実世界のシナリオに適用し、キャリブレーションを同時に測定しながら信用デフォルトを予測する。
論文 参考訳(メタデータ) (2024-02-12T16:55:19Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z) - Distribution-Free Model-Agnostic Regression Calibration via
Nonparametric Methods [9.662269016653296]
予測モデルの量子化を特徴付けるための個別キャリブレーションの目的について考察する。
既存の方法はほとんどなく、個々のキャリブレーションに関して統計的な保証が欠如している。
基礎となる予測モデルに依存しない単純な非パラメトリックキャリブレーション法を提案する。
論文 参考訳(メタデータ) (2023-05-20T21:31:51Z) - Calibration of Neural Networks [77.34726150561087]
本稿では,ニューラルネットワークの文脈における信頼性校正問題について調査する。
我々は,問題文,キャリブレーション定義,評価に対する異なるアプローチについて分析する。
実験実験では、様々なデータセットとモデルをカバーし、異なる基準に従って校正方法を比較する。
論文 参考訳(メタデータ) (2023-03-19T20:27:51Z) - On Calibrating Semantic Segmentation Models: Analyses and An Algorithm [51.85289816613351]
セマンティックセグメンテーションキャリブレーションの問題について検討する。
モデルキャパシティ、作物サイズ、マルチスケールテスト、予測精度はキャリブレーションに影響を及ぼす。
我々は、単純で統一的で効果的なアプローチ、すなわち選択的スケーリングを提案する。
論文 参考訳(メタデータ) (2022-12-22T22:05:16Z) - Estimating Expected Calibration Errors [1.52292571922932]
確率論的予測の不確実性は、モデルが人間の意思決定をサポートするために使用される場合、重要な問題である。
ほとんどのモデルは本質的に十分に校正されていないため、決定スコアは後続確率と一致しない。
我々は、$ECE$推定器の品質を定量化するための実証的な手順を構築し、それを使用して、異なる設定で実際にどの推定器を使用するべきかを決定する。
論文 参考訳(メタデータ) (2021-09-08T08:00:23Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z) - Unsupervised Calibration under Covariate Shift [92.02278658443166]
ドメインシフト下でのキャリブレーションの問題を導入し、それに対処するための重要サンプリングに基づくアプローチを提案する。
実世界のデータセットと合成データセットの両方において,本手法の有効性を評価し検討した。
論文 参考訳(メタデータ) (2020-06-29T21:50:07Z) - Calibration of Neural Networks using Splines [51.42640515410253]
キャリブレーション誤差の測定は、2つの経験的分布を比較します。
古典的コルモゴロフ・スミルノフ統計テスト(KS)にインスパイアされたビンニングフリーキャリブレーション尺度を導入する。
提案手法は,KS誤差に対する既存の手法と,他の一般的なキャリブレーション手法とを一貫して比較する。
論文 参考訳(メタデータ) (2020-06-23T07:18:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。