論文の概要: Rethinking Evaluation Metric for Probability Estimation Models Using
Esports Data
- arxiv url: http://arxiv.org/abs/2309.06248v1
- Date: Tue, 12 Sep 2023 14:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 12:40:04.806197
- Title: Rethinking Evaluation Metric for Probability Estimation Models Using
Esports Data
- Title(参考訳): esportsデータを用いた確率推定モデルの評価基準の再検討
- Authors: Euihyeon Choi, Jooyoung Kim, Wonkyung Lee
- Abstract要約: 確率推定基準が持つべき6つの良い特性の観点で、簡単なが効果的な計量であるバランススコア(英語版)と呼ばれる新しい計量を提案する。
また、一般条件下では、バランススコアが真のキャリブレーション誤差の効果的な近似となることも見出した。
- 参考スコア(独自算出の注目度): 8.10304644344495
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Probability estimation models play an important role in various fields, such
as weather forecasting, recommendation systems, and sports analysis. Among
several models estimating probabilities, it is difficult to evaluate which
model gives reliable probabilities since the ground-truth probabilities are not
available. The win probability estimation model for esports, which calculates
the win probability under a certain game state, is also one of the fields being
actively studied in probability estimation. However, most of the previous works
evaluated their models using accuracy, a metric that only can measure the
performance of discrimination. In this work, we firstly investigate the Brier
score and the Expected Calibration Error (ECE) as a replacement of accuracy
used as a performance evaluation metric for win probability estimation models
in esports field. Based on the analysis, we propose a novel metric called
Balance score which is a simple yet effective metric in terms of six good
properties that probability estimation metric should have. Under the general
condition, we also found that the Balance score can be an effective
approximation of the true expected calibration error which has been imperfectly
approximated by ECE using the binning technique. Extensive evaluations using
simulation studies and real game snapshot data demonstrate the promising
potential to adopt the proposed metric not only for the win probability
estimation model for esports but also for evaluating general probability
estimation models.
- Abstract(参考訳): 確率推定モデルは、天気予報、レコメンデーションシステム、スポーツ分析など様々な分野において重要な役割を果たす。
確率を推定するいくつかのモデルのうち、どのモデルが信頼できる確率を与えるかを評価することは困難である。
特定のゲーム状態下での勝利確率を計算するエスポートの勝利確率推定モデルは、確率推定において積極的に研究されている分野の1つである。
しかし、以前の作品のほとんどが、識別性能のみを測定する指標である精度を用いてモデルを評価した。
本研究では,eスポーツ分野における勝確率推定モデルの性能評価指標として用いられる精度の代替として,ブライアスコアと期待校正誤差(ece)について検討した。
この分析に基づき、確率推定基準が持つべき6つの良い特性の観点で、シンプルで効果的な計量であるバランススコアと呼ばれる新しい計量を提案する。
また, 一般的な条件下では, バイニング法を用いてECEによって不完全近似された真のキャリブレーション誤差を効果的に近似できることがわかった。
シミュレーション研究と実ゲームスナップショットデータを用いた大規模評価は,エスポートの勝利確率推定モデルだけでなく,一般確率推定モデルの評価にも有効であることを示す。
関連論文リスト
- Estimating Model Performance under Domain Shifts with Class-Specific
Confidence Scores [25.162667593654206]
不均衡なデータセットのパフォーマンス推定の枠組みの中で,クラスワイドキャリブレーションを導入する。
我々は、4つのタスクの実験を行い、提案した修正により、不均衡なデータセットの推定精度を一貫して改善する。
論文 参考訳(メタデータ) (2022-07-20T15:04:32Z) - Usable Region Estimate for Assessing Practical Usability of Medical
Image Segmentation Models [32.56957759180135]
医療画像セグメンテーションモデルの実用的ユーザビリティを定量的に測定することを目的としている。
まず、予測者の信頼度がランクの正確度スコアとどのように相関しているかを推定する尺度であるCCRC(Correctness-Confidence Rank correlation)を提案する。
次に、予測の正しさと信頼度を同時に定量化するURE(Usable Region Estimate)を提案する。
論文 参考訳(メタデータ) (2022-07-01T02:33:44Z) - Uncertainty estimation of pedestrian future trajectory using Bayesian
approximation [137.00426219455116]
動的トラフィックシナリオでは、決定論的予測に基づく計画は信頼できない。
著者らは、決定論的アプローチが捉えられない近似を用いて予測中の不確実性を定量化する。
将来の状態の不確実性に対する降雨重量と長期予測の影響について検討した。
論文 参考訳(メタデータ) (2022-05-04T04:23:38Z) - WeatherBench Probability: A benchmark dataset for probabilistic
medium-range weather forecasting along with deep learning baseline models [22.435002906710803]
WeatherBenchは、測地、温度、降水量の中距離天気予報のためのベンチマークデータセットである。
WeatherBench Probabilityはこれを確率的予測に拡張し、確立された確率的検証メトリクスのセットを追加する。
論文 参考訳(メタデータ) (2022-05-02T12:49:05Z) - Random Noise vs State-of-the-Art Probabilistic Forecasting Methods : A
Case Study on CRPS-Sum Discrimination Ability [4.9449660544238085]
対象データの統計的特性がCRPS-Sumの識別能力に影響を及ぼすことを示す。
CRPS-Sum計算は各次元におけるモデルの性能を見落としている。
ダミーモデルに対して,ランダムノイズのように見える,より優れたCRPS-Sumを持つことが容易に可能であることを示す。
論文 参考訳(メタデータ) (2022-01-21T12:36:58Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Deep Probability Estimation [14.659180336823354]
深層ニューラルネットワークを用いた高次元データからの確率推定について検討する。
この研究の目的は、ディープニューラルネットワークを用いた高次元データからの確率推定を調査することである。
合成データおよび実世界の3つの確率推定タスクにおける既存手法の評価を行った。
論文 参考訳(メタデータ) (2021-11-21T03:55:50Z) - Probabilistic Gradient Boosting Machines for Large-Scale Probabilistic
Regression [51.770998056563094]
PGBM(Probabilistic Gradient Boosting Machines)は、確率的予測を生成する手法である。
既存の最先端手法と比較してPGBMの利点を実証的に示す。
論文 参考訳(メタデータ) (2021-06-03T08:32:13Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Density of States Estimation for Out-of-Distribution Detection [69.90130863160384]
DoSEは状態推定器の密度である。
我々は、他の教師なしOOD検出器に対するDoSEの最先端性能を実証する。
論文 参考訳(メタデータ) (2020-06-16T16:06:25Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。