論文の概要: Rethinking Evaluation Metric for Probability Estimation Models Using
Esports Data
- arxiv url: http://arxiv.org/abs/2309.06248v1
- Date: Tue, 12 Sep 2023 14:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 12:40:04.806197
- Title: Rethinking Evaluation Metric for Probability Estimation Models Using
Esports Data
- Title(参考訳): esportsデータを用いた確率推定モデルの評価基準の再検討
- Authors: Euihyeon Choi, Jooyoung Kim, Wonkyung Lee
- Abstract要約: 確率推定基準が持つべき6つの良い特性の観点で、簡単なが効果的な計量であるバランススコア(英語版)と呼ばれる新しい計量を提案する。
また、一般条件下では、バランススコアが真のキャリブレーション誤差の効果的な近似となることも見出した。
- 参考スコア(独自算出の注目度): 8.10304644344495
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Probability estimation models play an important role in various fields, such
as weather forecasting, recommendation systems, and sports analysis. Among
several models estimating probabilities, it is difficult to evaluate which
model gives reliable probabilities since the ground-truth probabilities are not
available. The win probability estimation model for esports, which calculates
the win probability under a certain game state, is also one of the fields being
actively studied in probability estimation. However, most of the previous works
evaluated their models using accuracy, a metric that only can measure the
performance of discrimination. In this work, we firstly investigate the Brier
score and the Expected Calibration Error (ECE) as a replacement of accuracy
used as a performance evaluation metric for win probability estimation models
in esports field. Based on the analysis, we propose a novel metric called
Balance score which is a simple yet effective metric in terms of six good
properties that probability estimation metric should have. Under the general
condition, we also found that the Balance score can be an effective
approximation of the true expected calibration error which has been imperfectly
approximated by ECE using the binning technique. Extensive evaluations using
simulation studies and real game snapshot data demonstrate the promising
potential to adopt the proposed metric not only for the win probability
estimation model for esports but also for evaluating general probability
estimation models.
- Abstract(参考訳): 確率推定モデルは、天気予報、レコメンデーションシステム、スポーツ分析など様々な分野において重要な役割を果たす。
確率を推定するいくつかのモデルのうち、どのモデルが信頼できる確率を与えるかを評価することは困難である。
特定のゲーム状態下での勝利確率を計算するエスポートの勝利確率推定モデルは、確率推定において積極的に研究されている分野の1つである。
しかし、以前の作品のほとんどが、識別性能のみを測定する指標である精度を用いてモデルを評価した。
本研究では,eスポーツ分野における勝確率推定モデルの性能評価指標として用いられる精度の代替として,ブライアスコアと期待校正誤差(ece)について検討した。
この分析に基づき、確率推定基準が持つべき6つの良い特性の観点で、シンプルで効果的な計量であるバランススコアと呼ばれる新しい計量を提案する。
また, 一般的な条件下では, バイニング法を用いてECEによって不完全近似された真のキャリブレーション誤差を効果的に近似できることがわかった。
シミュレーション研究と実ゲームスナップショットデータを用いた大規模評価は,エスポートの勝利確率推定モデルだけでなく,一般確率推定モデルの評価にも有効であることを示す。
関連論文リスト
- A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)における最初の形式的確率的評価フレームワークを紹介する。
モデルの出力分布に関する高い確率保証を持つ新しい指標を導出する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Deep Probability Segmentation: Are segmentation models probability estimators? [0.7646713951724011]
モデルのキャリブレーションへの影響を評価するために,セグメンテーションタスクにキャリブレーション確率推定を適用した。
その結果, キャリブレーションはキャリブレーションが向上するが, 分類タスクに比べ, キャリブレーションの効果は低かった。
また, キャリブレーションの有効性に及ぼすデータセットサイズとビン最適化の影響についても検討した。
論文 参考訳(メタデータ) (2024-09-19T07:52:19Z) - Probabilistic Scores of Classifiers, Calibration is not Enough [0.32985979395737786]
二項分類タスクでは、確率的予測の正確な表現が実世界の様々な応用に不可欠である。
本研究では,予測スコアと真の確率分布の一致を優先するアプローチを強調した。
その結果,従来の校正基準の限界が明らかとなり,重要な意思決定のための予測モデルの信頼性を損なう可能性が示唆された。
論文 参考訳(メタデータ) (2024-08-06T19:53:00Z) - Confidence-based Estimators for Predictive Performance in Model Monitoring [0.5399800035598186]
マシンラーニングモデルが本番環境にデプロイされた後、その予測パフォーマンスを監視する必要がある。
近年,地中真実が得られない場合の予測性能を推定する新たな手法が開発されている。
一般的な仮定では、平均信頼度(AC)法はモデル精度の偏りのない一貫した推定器であることが示される。
論文 参考訳(メタデータ) (2024-07-11T16:28:31Z) - Usable Region Estimate for Assessing Practical Usability of Medical
Image Segmentation Models [32.56957759180135]
医療画像セグメンテーションモデルの実用的ユーザビリティを定量的に測定することを目的としている。
まず、予測者の信頼度がランクの正確度スコアとどのように相関しているかを推定する尺度であるCCRC(Correctness-Confidence Rank correlation)を提案する。
次に、予測の正しさと信頼度を同時に定量化するURE(Usable Region Estimate)を提案する。
論文 参考訳(メタデータ) (2022-07-01T02:33:44Z) - Uncertainty estimation of pedestrian future trajectory using Bayesian
approximation [137.00426219455116]
動的トラフィックシナリオでは、決定論的予測に基づく計画は信頼できない。
著者らは、決定論的アプローチが捉えられない近似を用いて予測中の不確実性を定量化する。
将来の状態の不確実性に対する降雨重量と長期予測の影響について検討した。
論文 参考訳(メタデータ) (2022-05-04T04:23:38Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Probabilistic Gradient Boosting Machines for Large-Scale Probabilistic
Regression [51.770998056563094]
PGBM(Probabilistic Gradient Boosting Machines)は、確率的予測を生成する手法である。
既存の最先端手法と比較してPGBMの利点を実証的に示す。
論文 参考訳(メタデータ) (2021-06-03T08:32:13Z) - Density of States Estimation for Out-of-Distribution Detection [69.90130863160384]
DoSEは状態推定器の密度である。
我々は、他の教師なしOOD検出器に対するDoSEの最先端性能を実証する。
論文 参考訳(メタデータ) (2020-06-16T16:06:25Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。