論文の概要: How to Evaluate Uncertainty Estimates in Machine Learning for
Regression?
- arxiv url: http://arxiv.org/abs/2106.03395v2
- Date: Thu, 3 Aug 2023 12:53:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 17:44:14.828436
- Title: How to Evaluate Uncertainty Estimates in Machine Learning for
Regression?
- Title(参考訳): 回帰のための機械学習における不確実性評価方法
- Authors: Laurens Sluijterman, Eric Cator, Tom Heskes
- Abstract要約: 両手法とも,不確実性評価の品質評価には深刻な欠陥があることが示唆された。
第一に、どちらのアプローチも、予測の不確実性を共同で生み出す別個のコンポーネントを解き放つことはできない。
第3に、予測間隔を直接テストする現在のアプローチには、さらなる欠陥がある。
- 参考スコア(独自算出の注目度): 1.4610038284393165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As neural networks become more popular, the need for accompanying uncertainty
estimates increases. There are currently two main approaches to test the
quality of these estimates. Most methods output a density. They can be compared
by evaluating their loglikelihood on a test set. Other methods output a
prediction interval directly. These methods are often tested by examining the
fraction of test points that fall inside the corresponding prediction
intervals. Intuitively both approaches seem logical. However, we demonstrate
through both theoretical arguments and simulations that both ways of evaluating
the quality of uncertainty estimates have serious flaws. Firstly, both
approaches cannot disentangle the separate components that jointly create the
predictive uncertainty, making it difficult to evaluate the quality of the
estimates of these components. Secondly, a better loglikelihood does not
guarantee better prediction intervals, which is what the methods are often used
for in practice. Moreover, the current approach to test prediction intervals
directly has additional flaws. We show why it is fundamentally flawed to test a
prediction or confidence interval on a single test set. At best, marginal
coverage is measured, implicitly averaging out overconfident and underconfident
predictions. A much more desirable property is pointwise coverage, requiring
the correct coverage for each prediction. We demonstrate through practical
examples that these effects can result in favoring a method, based on the
predictive uncertainty, that has undesirable behaviour of the confidence or
prediction intervals. Finally, we propose a simulation-based testing approach
that addresses these problems while still allowing easy comparison between
different methods.
- Abstract(参考訳): ニューラルネットワークが普及するにつれて、不確実性推定に伴う必要性が増加する。
現在、これらの見積もりの品質をテストする2つの主要なアプローチがあります。
ほとんどの方法は密度を出す。
テストセット上でloglikelihoodを評価することで比較することができる。
他の方法は予測間隔を直接出力する。
これらの方法は、対応する予測間隔内にあるテストポイントの分数を調べることでしばしばテストされる。
直感的にはどちらのアプローチも論理的だ。
しかし, 理論的な議論とシミュレーションによって, 不確実性評価の両手法に重大な欠陥があることを実証する。
第一に、どちらのアプローチも予測の不確実性を共同生成する別々のコンポーネントを分離できないため、これらのコンポーネントの見積もりの品質を評価するのが困難である。
第二に、より優れたloglikelihoodでは、より良い予測間隔が保証されない。
さらに、予測間隔を直接テストする現在のアプローチには、さらなる欠陥がある。
一つのテストセットで予測や信頼区間をテストすることが根本的な欠陥である理由を示す。
せいぜい、限界カバレッジは測定され、自信過剰で信頼できない予測を暗黙的に平均する。
より望ましい特性は、各予測に対して適切なカバレッジを必要とするポイントワイズカバレッジである。
これらの効果が信頼度や予測間隔の望ましくない振る舞いを持つ予測的不確実性に基づく方法に有利な結果をもたらすことを実例で示す。
最後に,これらの問題に対処しつつ,異なる手法の比較を容易にするシミュレーションベースのテスト手法を提案する。
関連論文リスト
- Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - Efficient Normalized Conformal Prediction and Uncertainty Quantification
for Anti-Cancer Drug Sensitivity Prediction with Deep Regression Forests [0.0]
予測間隔で機械学習モデルをペアリングするための有望な方法として、コンフォーマル予測が登場した。
本研究では,深部回帰林から得られた分散度を算出し,各試料の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T19:09:53Z) - Automatically Reconciling the Trade-off between Prediction Accuracy and
Earliness in Prescriptive Business Process Monitoring [0.802904964931021]
本稿では,予測精度と予測聴力のトレードオフを自動的に整合する問題に着目する。
予測精度と補聴器とのトレードオフを和らげるために、文献で異なるアプローチが提示された。
予測精度と補聴器のトレードオフを整合する主要な代替手法の比較評価を行う。
論文 参考訳(メタデータ) (2023-07-12T06:07:53Z) - Rethinking Confidence Calibration for Failure Prediction [37.43981354073841]
現代のディープニューラルネットワークは、しばしば誤った予測を過信している。
ほとんどの信頼性校正手法は、故障予測に役に立たないか有害であることがわかった。
フラット・ミニマは故障予測に有用である,という単純な仮説を提案する。
論文 参考訳(メタデータ) (2023-03-06T08:54:18Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Dense Uncertainty Estimation [62.23555922631451]
本稿では,ニューラルネットワークと不確実性推定手法について検討し,正確な決定論的予測と確実性推定の両方を実現する。
本研究では,アンサンブルに基づく手法と生成モデルに基づく手法の2つの不確実性推定法について検討し,それらの長所と短所を,完全/半端/弱度に制御されたフレームワークを用いて説明する。
論文 参考訳(メタデータ) (2021-10-13T01:23:48Z) - Comparing Sequential Forecasters [35.38264087676121]
2つの予測器を考えてみましょう。それぞれが時間とともに一連のイベントを予測します。
オンラインでもポストホックでも、予測と結果がどのように生成されたかの検証不可能な仮定を避けながら、これらの予測をどのように比較すればよいのか?
予測スコアの時間差を推定するための新しい逐次推論手法を提案する。
実世界の野球と天気予報機を比較することで,我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2021-09-30T22:54:46Z) - Quantifying Uncertainty in Deep Spatiotemporal Forecasting [67.77102283276409]
本稿では,正規格子法とグラフ法という2種類の予測問題について述べる。
我々はベイジアンおよび頻繁な視点からUQ法を解析し、統計的決定理論を通じて統一的な枠組みを提示する。
実際の道路ネットワークのトラフィック、疫病、空気質予測タスクに関する広範な実験を通じて、異なるUQ手法の統計計算トレードオフを明らかにする。
論文 参考訳(メタデータ) (2021-05-25T14:35:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。