論文の概要: Random Noise vs State-of-the-Art Probabilistic Forecasting Methods : A
Case Study on CRPS-Sum Discrimination Ability
- arxiv url: http://arxiv.org/abs/2201.08671v1
- Date: Fri, 21 Jan 2022 12:36:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 13:33:52.245115
- Title: Random Noise vs State-of-the-Art Probabilistic Forecasting Methods : A
Case Study on CRPS-Sum Discrimination Ability
- Title(参考訳): ランダムノイズと現状確率予測法 : CRPS-Sum判別能力を事例として
- Authors: Alireza Koochali, Peter Schichtel, Andreas Dengel, Sheraz Ahmed
- Abstract要約: 対象データの統計的特性がCRPS-Sumの識別能力に影響を及ぼすことを示す。
CRPS-Sum計算は各次元におけるモデルの性能を見落としている。
ダミーモデルに対して,ランダムノイズのように見える,より優れたCRPS-Sumを持つことが容易に可能であることを示す。
- 参考スコア(独自算出の注目度): 4.9449660544238085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent developments in the machine learning domain have enabled the
development of complex multivariate probabilistic forecasting models.
Therefore, it is pivotal to have a precise evaluation method to gauge the
performance and predictability power of these complex methods. To do so,
several evaluation metrics have been proposed in the past (such as Energy
Score, Dawid-Sebastiani score, variogram score), however, they cannot reliably
measure the performance of a probabilistic forecaster. Recently, CRPS-sum has
gained a lot of prominence as a reliable metric for multivariate probabilistic
forecasting. This paper presents a systematic evaluation of CRPS-sum to
understand its discrimination ability. We show that the statistical properties
of target data affect the discrimination ability of CRPS-Sum. Furthermore, we
highlight that CRPS-Sum calculation overlooks the performance of the model on
each dimension. These flaws can lead us to an incorrect assessment of model
performance. Finally, with experiments on the real-world dataset, we
demonstrate that the shortcomings of CRPS-Sum provide a misleading indication
of the probabilistic forecasting performance method. We show that it is easily
possible to have a better CRPS-Sum for a dummy model, which looks like random
noise, in comparison to the state-of-the-art method.
- Abstract(参考訳): 最近の機械学習分野の発展により、複雑な多変量確率予測モデルの開発が可能になった。
したがって、これらの複雑な手法の性能と予測可能性を評価するための正確な評価方法を持つことが重要である。
そのため、過去にいくつかの評価指標が提案されている(エネルギースコア、ダウィド・セバスティアーニスコア、ヴァリグラムスコアなど)が、確率的予測器の性能を確実に測定することはできない。
近年,多変量確率予測の信頼性指標としてCRPS-sumが注目されている。
本稿では,CRPS-sumの系統的評価を行い,その識別能力について考察する。
対象データの統計的特性がCRPS-Sumの識別能力に影響を及ぼすことを示す。
さらに、CRPS-Sum計算は各次元におけるモデルの性能を見落としている。
これらの欠陥はモデル性能の誤った評価につながる可能性がある。
最後に,実世界のデータセットを用いた実験により,CRPS-Sumの欠点が確率予測性能法を誤解を招くことを示す。
本研究では, ダミーモデルに対して, 最先端手法と比較して, ランダムノイズのように見えるCRPS-Sumを改良することが容易に可能であることを示す。
関連論文リスト
- Deep Probability Segmentation: Are segmentation models probability estimators? [0.7646713951724011]
モデルのキャリブレーションへの影響を評価するために,セグメンテーションタスクにキャリブレーション確率推定を適用した。
その結果, キャリブレーションはキャリブレーションが向上するが, 分類タスクに比べ, キャリブレーションの効果は低かった。
また, キャリブレーションの有効性に及ぼすデータセットサイズとビン最適化の影響についても検討した。
論文 参考訳(メタデータ) (2024-09-19T07:52:19Z) - Probabilistic Scores of Classifiers, Calibration is not Enough [0.32985979395737786]
二項分類タスクでは、確率的予測の正確な表現が実世界の様々な応用に不可欠である。
本研究では,予測スコアと真の確率分布の一致を優先するアプローチを強調した。
その結果,従来の校正基準の限界が明らかとなり,重要な意思決定のための予測モデルの信頼性を損なう可能性が示唆された。
論文 参考訳(メタデータ) (2024-08-06T19:53:00Z) - High Precision Causal Model Evaluation with Conditional Randomization [10.23470075454725]
因果誤差を推定するための新しい低分散推定器(ペア推定器)を提案する。
モデルと真の実験効果の両方に同じIPW推定器を適用することにより、IPWによる分散を効果的にキャンセルし、より小さな分散を実現する。
提案手法は,IPW推定器自体の複雑な変更を伴わずに,条件付きランダム化設定における因果推論モデルを評価するための,単純かつ強力な解を提供する。
論文 参考訳(メタデータ) (2023-11-03T13:22:27Z) - Evaluating Probabilistic Classifiers: The Triptych [62.997667081978825]
本稿では,予測性能の異なる相補的な側面に焦点をあてた診断グラフィックのトリチチを提案し,研究する。
信頼性図は校正に対処し、受信動作特性(ROC)曲線は識別能力を診断し、マーフィー図は全体的な予測性能と価値を視覚化する。
論文 参考訳(メタデータ) (2023-01-25T19:35:23Z) - NUQ: Nonparametric Uncertainty Quantification for Deterministic Neural
Networks [151.03112356092575]
本研究では,Nadaraya-Watson の条件付きラベル分布の非パラメトリック推定に基づく分類器の予測の不確かさの測定方法を示す。
種々の実世界の画像データセットにおける不確実性推定タスクにおいて,本手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-07T12:30:45Z) - Deep Probability Estimation [14.659180336823354]
深層ニューラルネットワークを用いた高次元データからの確率推定について検討する。
この研究の目的は、ディープニューラルネットワークを用いた高次元データからの確率推定を調査することである。
合成データおよび実世界の3つの確率推定タスクにおける既存手法の評価を行った。
論文 参考訳(メタデータ) (2021-11-21T03:55:50Z) - Probabilistic Gradient Boosting Machines for Large-Scale Probabilistic
Regression [51.770998056563094]
PGBM(Probabilistic Gradient Boosting Machines)は、確率的予測を生成する手法である。
既存の最先端手法と比較してPGBMの利点を実証的に示す。
論文 参考訳(メタデータ) (2021-06-03T08:32:13Z) - Evaluating probabilistic classifiers: Reliability diagrams and score
decompositions revisited [68.8204255655161]
確率的に統計的に一貫性があり、最適に結合し、再現可能な信頼性図を自動生成するCORP手法を導入する。
コーパスは非パラメトリックアイソトニック回帰に基づいており、プール・アジャセント・ヴァイオレータ(PAV)アルゴリズムによって実装されている。
論文 参考訳(メタデータ) (2020-08-07T08:22:26Z) - Efficient Ensemble Model Generation for Uncertainty Estimation with
Bayesian Approximation in Segmentation [74.06904875527556]
アンサンブルセグメンテーションモデルを構築するための汎用的で効率的なセグメンテーションフレームワークを提案する。
提案手法では,層選択法を用いて効率よくアンサンブルモデルを生成することができる。
また,新たな画素単位の不確実性損失を考案し,予測性能を向上する。
論文 参考訳(メタデータ) (2020-05-21T16:08:38Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。