論文の概要: Metrics of calibration for probabilistic predictions
- arxiv url: http://arxiv.org/abs/2205.09680v1
- Date: Thu, 19 May 2022 16:38:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 14:50:28.170452
- Title: Metrics of calibration for probabilistic predictions
- Title(参考訳): 確率予測のための校正指標
- Authors: Imanol Arrieta-Ibarra, Paman Gujral, Jonathan Tannen, Mark Tygert, and
Cherie Xu
- Abstract要約: 信頼性図」は統計的に有意な相違を検知・診断するのに役立ち、いわゆる「ミススキャリブレーション」と呼ばれる。
標準信頼性図は、予測の観測値と期待値のヒストグラムを示す。
しかし、どの幅のビンやカーネルが最善か?
セカントラインの一定のオフセットが無関係である場合でも、スロープは定量的な精度で容易に知覚できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predictions are often probabilities; e.g., a prediction could be for
precipitation tomorrow, but with only a 30% chance. Given such probabilistic
predictions together with the actual outcomes, "reliability diagrams" help
detect and diagnose statistically significant discrepancies -- so-called
"miscalibration" -- between the predictions and the outcomes. The canonical
reliability diagrams histogram the observed and expected values of the
predictions; replacing the hard histogram binning with soft kernel density
estimation is another common practice. But, which widths of bins or kernels are
best? Plots of the cumulative differences between the observed and expected
values largely avoid this question, by displaying miscalibration directly as
the slopes of secant lines for the graphs. Slope is easy to perceive with
quantitative precision, even when the constant offsets of the secant lines are
irrelevant; there is no need to bin or perform kernel density estimation.
The existing standard metrics of miscalibration each summarize a reliability
diagram as a single scalar statistic. The cumulative plots naturally lead to
scalar metrics for the deviation of the graph of cumulative differences away
from zero; good calibration corresponds to a horizontal, flat graph which
deviates little from zero. The cumulative approach is currently unconventional,
yet offers many favorable statistical properties, guaranteed via mathematical
theory backed by rigorous proofs and illustrative numerical examples. In
particular, metrics based on binning or kernel density estimation unavoidably
must trade-off statistical confidence for the ability to resolve variations as
a function of the predicted probability or vice versa. Widening the bins or
kernels averages away random noise while giving up some resolving power.
Narrowing the bins or kernels enhances resolving power while not averaging away
as much noise.
- Abstract(参考訳): 例えば、明日の降水は予測できるが、30%の確率で予測できる。
このような確率的予測と実際の結果が与えられた場合、「信頼性図」は、予測と結果の間の統計的に重要な相違(いわゆる「ミススキャリブレーション」)を検出し、診断するのに役立つ。
標準的信頼性図ヒストグラム 予測の観測値と予測値、ハードヒストグラムのバイナリー化をソフトカーネル密度推定に置き換えることも一般的である。
しかし、どの幅のビンやカーネルが最善か?
観測値と期待値の累積差のプロットは、グラフのセカント線の傾斜線として誤校正を直接表示することにより、この問題を回避する。
スロープは、セカントラインの定数オフセットが無関係であっても、定量的な精度で容易に認識でき、バイナリやカーネル密度の推定は不要である。
既存の標準の誤校正メトリクスはそれぞれ、信頼性図を単一のスカラー統計量として要約している。
累積プロットは自然にゼロから外れた累積差のグラフの偏差に対するスカラーメトリックにつながり、良質なキャリブレーションはゼロからほとんどずれない水平な平坦グラフに対応する。
累積的アプローチは、現在非古典的であるが、厳密な証明と図解的な数値例を背景とした数学的理論によって保証される多くの好ましい統計的性質を提供する。
特に、バイナリやカーネル密度の推定に基づく指標は、予測確率の関数として変動を解決する能力について統計的な自信をトレードオフする必要がある。
ビンやカーネルを拡大すると、ランダムノイズを除去し、解決するパワーを諦める。
ビンやカーネルを狭めることで、ノイズを平均化することなく、解決力を高めることができる。
関連論文リスト
- Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。
本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。
これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文 参考訳(メタデータ) (2024-06-05T13:36:38Z) - TIC-TAC: A Framework for Improved Covariance Estimation in Deep Heteroscedastic Regression [109.69084997173196]
奥行き回帰は、予測分布の平均と共分散を負の対数類似度を用いて共同最適化する。
近年の研究では, 共分散推定に伴う課題により, 準最適収束が生じる可能性が示唆されている。
1)予測共分散は予測平均のランダム性を真に捉えているか?
その結果, TICは共分散を正確に学習するだけでなく, 負の対数類似性の収束性の向上も促進することがわかった。
論文 参考訳(メタデータ) (2023-10-29T09:54:03Z) - Statistical Estimation Under Distribution Shift: Wasserstein
Perturbations and Minimax Theory [24.540342159350015]
我々はWasserstein分布シフトに注目し、各データポイントがわずかに摂動する可能性がある。
データポイント間の独立あるいは協調的な関節シフトである摂動について検討する。
位置推定,線形回帰,非パラメトリック密度推定など,いくつかの重要な統計問題を解析する。
論文 参考訳(メタデータ) (2023-08-03T16:19:40Z) - Confidence and Dispersity Speak: Characterising Prediction Matrix for
Unsupervised Accuracy Estimation [51.809741427975105]
この研究は、ラベルを使わずに、分散シフト下でのモデルの性能を評価することを目的としている。
我々は、両方の特性を特徴付けるのに有効であることが示されている核規範を用いる。
核の基準は既存の手法よりも正確で堅牢であることを示す。
論文 参考訳(メタデータ) (2023-02-02T13:30:48Z) - Evaluating Probabilistic Classifiers: The Triptych [62.997667081978825]
本稿では,予測性能の異なる相補的な側面に焦点をあてた診断グラフィックのトリチチを提案し,研究する。
信頼性図は校正に対処し、受信動作特性(ROC)曲線は識別能力を診断し、マーフィー図は全体的な予測性能と価値を視覚化する。
論文 参考訳(メタデータ) (2023-01-25T19:35:23Z) - A Consistent and Differentiable Lp Canonical Calibration Error Estimator [21.67616079217758]
ディープニューラルネットワークは校正が不十分で、自信過剰な予測を出力する傾向がある。
ディリクレ核密度推定に基づく低バイアス・トレーニング可能な校正誤差推定器を提案する。
提案手法はカーネルの自然な選択であり,他の量の一貫した推定値を生成するのに利用できる。
論文 参考訳(メタデータ) (2022-10-13T15:11:11Z) - Statistical Efficiency of Score Matching: The View from Isoperimetry [96.65637602827942]
本研究では, スコアマッチングの統計的効率と推定される分布の等尺性との間に, 密接な関係を示す。
これらの結果はサンプル状態と有限状態の両方で定式化する。
論文 参考訳(メタデータ) (2022-10-03T06:09:01Z) - Evaluating probabilistic classifiers: Reliability diagrams and score
decompositions revisited [68.8204255655161]
確率的に統計的に一貫性があり、最適に結合し、再現可能な信頼性図を自動生成するCORP手法を導入する。
コーパスは非パラメトリックアイソトニック回帰に基づいており、プール・アジャセント・ヴァイオレータ(PAV)アルゴリズムによって実装されている。
論文 参考訳(メタデータ) (2020-08-07T08:22:26Z) - Matrix Completion with Quantified Uncertainty through Low Rank Gaussian
Copula [30.84155327760468]
本稿では,不確かさを定量化した値計算の欠如に対する枠組みを提案する。
モデルに適合するために必要な時間は、データセット内の行数や列数と線形にスケールする。
実験結果から,本手法は様々な種類のデータに対して最先端の計算精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-06-18T19:51:42Z) - Plots of the cumulative differences between observed and expected values
of ordered Bernoulli variates [0.0]
信頼性図」("calibration plots"とも呼ばれる)は、予測と結果の重大な相違を検出し、診断するのに役立つ。
標準信頼性図は、予測の観測値と期待値のヒストグラムに基づく。
標準信頼性図のいくつかの変種は、硬いヒストグラムをソフトカーネル密度推定に置き換えることを提案する。
論文 参考訳(メタデータ) (2020-06-03T20:15:43Z) - Estimation of Accurate and Calibrated Uncertainties in Deterministic
models [0.8702432681310401]
我々は,決定論的予測を確率論的予測に変換する手法を考案した。
そのためには,そのようなモデルの精度と信頼性(校正)を損なう必要がある。
隠れたノイズを正確に回収できる合成データと、大規模な実世界のデータセットの両方について、いくつかの例を示す。
論文 参考訳(メタデータ) (2020-03-11T04:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。