論文の概要: Variation in prediction accuracy due to randomness in data division and fair evaluation using interval estimation
- arxiv url: http://arxiv.org/abs/2409.01025v1
- Date: Mon, 2 Sep 2024 08:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 07:49:16.468944
- Title: Variation in prediction accuracy due to randomness in data division and fair evaluation using interval estimation
- Title(参考訳): データ分割におけるランダム性による予測精度の変動と間隔推定による公正評価
- Authors: Isao Goto,
- Abstract要約: 本稿では,機械学習アルゴリズムを用いて予測モデルを構築する際の「簡単な問題」に答えようとする。
我々は「初期状態」依存的ランダム性を伴う33,600の糖尿病診断モデルを構築した。
その結果,予測精度は初期状態依存分布であった。
- 参考スコア(独自算出の注目度): 0.13053649021965602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper attempts to answer a "simple question" in building predictive models using machine learning algorithms. Although diagnostic and predictive models for various diseases have been proposed using data from large cohort studies and machine learning algorithms, challenges remain in their generalizability. Several causes for this challenge have been pointed out, and partitioning of the dataset with randomness is considered to be one of them. In this study, we constructed 33,600 diabetes diagnosis models with "initial state" dependent randomness using autoML (automatic machine learning framework) and open diabetes data, and evaluated their prediction accuracy. The results showed that the prediction accuracy had an initial state-dependent distribution. Since this distribution could follow a normal distribution, we estimated the expected interval of prediction accuracy using statistical interval estimation in order to fairly compare the accuracy of the prediction models.
- Abstract(参考訳): 本稿では,機械学習アルゴリズムを用いて予測モデルを構築する際の「簡単な問題」に答えようとする。
様々な疾患の診断および予測モデルは、大規模なコホート研究と機械学習アルゴリズムのデータを用いて提案されているが、その一般化性には課題がある。
この課題のいくつかの原因が指摘されており、ランダムなデータセットの分割がその1つと考えられている。
本研究では,AutoML(Automatic Machine Learning framework)とオープン糖尿病データを用いて,「初期状態」に依存した33,600の糖尿病診断モデルを構築し,その予測精度を評価した。
その結果,予測精度は初期状態依存分布であった。
この分布は正規分布に従うことができるため,予測モデルの精度を正確に比較するために,統計的間隔推定を用いて予測精度の予測間隔を推定する。
関連論文リスト
- A Machine Learning Model for Predicting, Diagnosing, and Mitigating
Health Disparities in Hospital Readmission [0.0]
本稿では,データ中のバイアスの検出と緩和とモデル予測が可能な機械学習パイプラインを提案する。
提案手法の有効性を,精度と公正度の測定値を用いて評価した。
論文 参考訳(メタデータ) (2022-06-13T16:07:25Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Dense Uncertainty Estimation [62.23555922631451]
本稿では,ニューラルネットワークと不確実性推定手法について検討し,正確な決定論的予測と確実性推定の両方を実現する。
本研究では,アンサンブルに基づく手法と生成モデルに基づく手法の2つの不確実性推定法について検討し,それらの長所と短所を,完全/半端/弱度に制御されたフレームワークを用いて説明する。
論文 参考訳(メタデータ) (2021-10-13T01:23:48Z) - Improving Uncertainty Calibration via Prior Augmented Data [56.88185136509654]
ニューラルネットワークは、普遍関数近似器として機能することで、複雑なデータ分布から学習することに成功した。
彼らはしばしば予測に自信過剰であり、不正確で誤った確率的予測に繋がる。
本稿では,モデルが不当に過信である特徴空間の領域を探索し,それらの予測のエントロピーをラベルの以前の分布に対して条件的に高める手法を提案する。
論文 参考訳(メタデータ) (2021-02-22T07:02:37Z) - Tolerance and Prediction Intervals for Non-normal Models [0.0]
予測間隔は、繰り返しサンプリングにおいてランダムプロセスから将来の観察をカバーする。
寛容間隔は繰り返しサンプリングにおいて集団パーセンタイルをカバーし、しばしば中心的な量に基づいている。
論文 参考訳(メタデータ) (2020-11-23T17:48:09Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Individual Calibration with Randomized Forecasting [116.2086707626651]
予測値がランダムに設定された場合,各サンプルのキャリブレーションは回帰設定で可能であることを示す。
我々は、個別の校正を強制する訓練目標を設計し、それをランダム化された回帰関数の訓練に使用する。
論文 参考訳(メタデータ) (2020-06-18T05:53:10Z) - A Causal Direction Test for Heterogeneous Populations [10.653162005300608]
ほとんどの因果モデルでは、単一の同質な集団を仮定するが、これは多くの応用において成り立たない仮定である。
等質性仮定に違反した場合、そのような仮定に基づいて開発された因果モデルが正しい因果方向を識別できないことを示す。
我々は,$k$-means型クラスタリングアルゴリズムを用いて,一般的な因果方向検定統計量の調整を提案する。
論文 参考訳(メタデータ) (2020-06-08T18:59:14Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。