論文の概要: Negative impact of heavy-tailed uncertainty and error distributions on the reliability of calibration statistics for machine learning regression tasks
- arxiv url: http://arxiv.org/abs/2402.10043v5
- Date: Mon, 19 Aug 2024 08:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 03:37:26.340235
- Title: Negative impact of heavy-tailed uncertainty and error distributions on the reliability of calibration statistics for machine learning regression tasks
- Title(参考訳): 機械学習回帰タスクの校正統計の信頼性に対する重み付き不確実性と誤差分布の負の影響
- Authors: Pascal Pernot,
- Abstract要約: 重み付き不確実性および誤差分布に対して,MV,MSE,それらの信頼区間の推定は信頼性に欠けることが示されている。
同じ問題が、一般的なenceのような条件付きキャリブレーション統計にも影響することが期待されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Average calibration of the (variance-based) prediction uncertainties of machine learning regression tasks can be tested in two ways: one is to estimate the calibration error (CE) as the difference between the mean absolute error (MSE) and the mean variance (MV); the alternative is to compare the mean squared z-scores (ZMS) to 1. The problem is that both approaches might lead to different conclusions, as illustrated in this study for an ensemble of datasets from the recent machine learning uncertainty quantification (ML-UQ) literature. It is shown that the estimation of MV, MSE and their confidence intervals becomes unreliable for heavy-tailed uncertainty and error distributions, which seems to be a frequent feature of ML-UQ datasets. By contrast, the ZMS statistic is less sensitive and offers the most reliable approach in this context, still acknowledging that datasets with heavy-tailed z-scores distributions should be considered with great care. Unfortunately, the same problem is expected to affect also conditional calibrations statistics, such as the popular ENCE, and very likely post-hoc calibration methods based on similar statistics. Several solutions to circumvent the outlined problems are proposed.
- Abstract(参考訳): 1つは平均絶対誤差(MSE)と平均分散(MV)の差としてキャリブレーション誤差(CE)を推定することであり、もう1つは平均二乗zスコア(ZMS)と1である。
問題は、両方のアプローチが、最近の機械学習不確実性定量化(ML-UQ)文学からのデータセットのアンサンブルのために示されているように、異なる結論につながる可能性があることである。
ML-UQデータセットの頻繁な特徴である重み付き不確実性と誤り分布に対しては,MV,MSE,その信頼区間の推定が信頼性に欠けることが示されている。
対照的に、ZMS統計は感度が低く、この文脈でもっとも信頼性の高いアプローチを提供しており、重い尾のzスコア分布を持つデータセットは、非常に注意を払って検討されるべきであることを認めている。
残念なことに、同じ問題が、一般的なenceのような条件付きキャリブレーション統計や、同様の統計に基づくポストホックキャリブレーション手法にも影響することが期待されている。
概説された問題を回避するためのいくつかの解決策が提案されている。
関連論文リスト
- Evaluation of uncertainty estimations for Gaussian process regression based machine learning interatomic potentials [0.0]
機械学習の原子間ポテンシャルの不確実性推定は、導入した追加モデルエラーの定量化に不可欠である。
我々は、クーロンおよびSOAP表現を持つGPRモデルを、ポテンシャルエネルギー表面と分子の励起エネルギーを予測する入力として考える。
我々は,GPRの分散とアンサンブルに基づく不確かさが誤差とどのように関係しているか,また,固定された構成空間から最も不確実なサンプルを選択することによりモデル性能が向上するかを評価する。
論文 参考訳(メタデータ) (2024-10-27T10:06:09Z) - On the good reliability of an interval-based metric to validate prediction uncertainty for machine learning regression tasks [0.0]
本研究では,不確実性の平均校正を予測するための(より)信頼性の高い検証手法を提案する。
不確実性や誤差分布の重みの存在に非常に敏感な分散ベースのキャリブレーション指標を考えると、間隔ベースの測度であるPICP(Prediction Interval Coverage Probability)へのシフトが提案される。
結果のPICPは、分散ベースのキャリブレーション指標よりも迅速かつ確実に検査される。
論文 参考訳(メタデータ) (2024-08-23T14:16:10Z) - Validation of ML-UQ calibration statistics using simulated reference values: a sensitivity analysis [0.0]
いくつかの一般的な機械学習不確実量化(ML-UQ)キャリブレーション統計は、予め定義された参照値を持っていない。
実際の不確実性から導出される合成校正データセットに基づく模擬参照値は,この問題を緩和するために提案されている。
本研究は, この問題の諸側面を考察し, 検証に使用する生成分布の選択に過度に敏感な統計結果を示す。
論文 参考訳(メタデータ) (2024-03-01T10:19:32Z) - Identifying Incorrect Classifications with Balanced Uncertainty [21.130311978327196]
不確実性推定は、コストに敏感なディープラーニングアプリケーションには不可欠である。
本研究では,不確実性推定における不均衡を2種類の分布バイアスとしてモデル化するための分布不均衡を提案する。
そこで我々は,新たな分布的焦点損失目標を持つ不確実性推定器を学習する,バランスト・トゥルー・クラス確率フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-15T11:52:31Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Distribution-free uncertainty quantification for classification under
label shift [105.27463615756733]
2つの経路による分類問題に対する不確実性定量化(UQ)に焦点を当てる。
まず、ラベルシフトはカバレッジとキャリブレーションの低下を示すことでuqを損なうと論じる。
これらの手法を, 理論上, 分散性のない枠組みで検討し, その優れた実用性を示す。
論文 参考訳(メタデータ) (2021-03-04T20:51:03Z) - Uncertainty Quantification in Extreme Learning Machine: Analytical
Developments, Variance Estimates and Confidence Intervals [0.0]
不確かさの定量化は、機械学習モデルの予測品質を評価するために不可欠である。
文献で提案されるほとんどの手法は、データに対して強い仮定を行い、入力重みのランダム性を無視したり、信頼区間推定におけるバイアス寄与を無視したりする。
本稿では,これらの制約を克服し,EMMの多様性の理解を向上させる新しい推定法を提案する。
論文 参考訳(メタデータ) (2020-11-03T13:45:59Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z) - Learning to Predict Error for MRI Reconstruction [67.76632988696943]
提案手法による予測の不確実性は予測誤差と強く相関しないことを示す。
本稿では,2段階の予測誤差の目標ラベルと大小を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-02-13T15:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。