論文の概要: Confidence Intervals for Evaluation of Data Mining
- arxiv url: http://arxiv.org/abs/2502.07016v1
- Date: Mon, 10 Feb 2025 20:22:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:07.964975
- Title: Confidence Intervals for Evaluation of Data Mining
- Title(参考訳): データマイニング評価のための信頼区間
- Authors: Zheng Yuan, Wenxin Jiang,
- Abstract要約: データマイニングに使用される一般的なパフォーマンス対策に関する統計的推測を考察する。
信頼区間に対する有限サンプルカバレッジ確率について検討した。
また, ばらつきを補正する「ぼやけた補正」を提案し, 有限サンプル性能を向上する。
- 参考スコア(独自算出の注目度): 3.8485822412233452
- License:
- Abstract: In data mining, when binary prediction rules are used to predict a binary outcome, many performance measures are used in a vast array of literature for the purposes of evaluation and comparison. Some examples include classification accuracy, precision, recall, F measures, and Jaccard index. Typically, these performance measures are only approximately estimated from a finite dataset, which may lead to findings that are not statistically significant. In order to properly quantify such statistical uncertainty, it is important to provide confidence intervals associated with these estimated performance measures. We consider statistical inference about general performance measures used in data mining, with both individual and joint confidence intervals. These confidence intervals are based on asymptotic normal approximations and can be computed fast, without needs to do bootstrap resampling. We study the finite sample coverage probabilities for these confidence intervals and also propose a `blurring correction' on the variance to improve the finite sample performance. This 'blurring correction' generalizes the plus-four method from binomial proportion to general performance measures used in data mining. Our framework allows multiple performance measures of multiple classification rules to be inferred simultaneously for comparisons.
- Abstract(参考訳): データマイニングでは、バイナリ予測ルールを使用してバイナリ結果を予測する場合、評価と比較のために、多くのパフォーマンス測定が文献に使われている。
例えば、分類精度、精度、リコール、F測度、ジャカード指数などがある。
通常、これらの性能測定は有限データセットからのみ推定されるが、統計的に有意ではない発見につながる可能性がある。
このような統計的不確かさを適切に定量化するためには、これらの推定性能対策に関連する信頼区間を提供することが重要である。
データマイニングで使用される一般的なパフォーマンス指標に関する統計的推測を,個人および共同信頼区間の双方で検討する。
これらの信頼区間は漸近正規近似に基づいており、ブートストラップ再サンプリングを必要とせずに高速に計算できる。
本研究は,これらの信頼区間に対する有限サンプルカバレッジ確率について検討し,その分散に対する「ブラアリング補正」を提案し,有限サンプル性能を向上する。
この「ブルーリング補正」は、二項比からデータマイニングで使われる一般的なパフォーマンス指標へのプラス4法を一般化する。
本フレームワークでは,比較のために複数の分類規則の複数の性能測定を同時に行うことができる。
関連論文リスト
- Provably Reliable Conformal Prediction Sets in the Presence of Data Poisoning [53.42244686183879]
コンフォーマル予測は、モデルに依存しない、分布のない不確実性定量化を提供する。
しかし、敵が訓練データと校正データを操作した場合の毒殺攻撃では、共形予測は信頼性が低い。
信頼性予測セット (RPS): 汚染下での信頼性保証を証明可能な共形予測セットを構築するための最初の効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-13T15:37:11Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Confidence Intervals for Error Rates in 1:1 Matching Tasks: Critical Statistical Analysis and Recommendations [16.934078380644216]
本稿では,1:1のマッチングタスクにおいて,誤り率に対する信頼区間を構築する手法について検討する。
サンプルサイズ,エラー率,データ依存度によって,範囲と間隔幅がどの程度異なるかを示す。
論文 参考訳(メタデータ) (2023-06-01T23:23:37Z) - Statistical Inference with Stochastic Gradient Methods under
$\phi$-mixing Data [9.77185962310918]
データが$phi$-mixingの場合の統計的推測のためのミニバッチSGD推定器を提案する。
信頼区間は、関連するミニバッチSGDプロシージャを用いて構成される。
提案手法はメモリ効率が高く,実装が容易である。
論文 参考訳(メタデータ) (2023-02-24T16:16:43Z) - UQ-ARMED: Uncertainty quantification of adversarially-regularized mixed
effects deep learning for clustered non-iid data [0.6719751155411076]
この研究は、モデル適合性、固定効果共分散係数、予測信頼度について、容易に解釈可能な統計メトリクスを作成する能力を示す。
本実験では,UQ法が有益であるだけでなく,いくつかのUQ法が元のARMED法の性能を維持している。
論文 参考訳(メタデータ) (2022-11-29T02:50:48Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Statistical Evaluation of Anomaly Detectors for Sequences [0.0]
逐次データにおける点ベース異常検出の時間的耐性を考慮した精度とリコールの概念を定式化する。
本研究では, 結果の統計的意義を評価するために, 2つの尺度に対してNull分布を求める方法を示す。
論文 参考訳(メタデータ) (2020-08-13T10:07:27Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。