論文の概要: Understanding overfitting in random forest for probability estimation: a visualization and simulation study
- arxiv url: http://arxiv.org/abs/2402.18612v2
- Date: Mon, 30 Sep 2024 07:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:30.431703
- Title: Understanding overfitting in random forest for probability estimation: a visualization and simulation study
- Title(参考訳): 確率推定のためのランダム森林におけるオーバーフィッティングの理解--可視化とシミュレーションによる研究
- Authors: Lasai Barreñada, Paula Dhiman, Dirk Timmerman, Anne-Laure Boulesteix, Ben Van Calster,
- Abstract要約: 卵巣悪性度予測のケーススタディでは,c-statisticsを1。
これは過度な適合を示唆するが、パフォーマンスはテストデータで競争力があった。
本研究では,3つの実世界のケーススタディとシミュレーション研究において,データ空間を可視化し,ランダムな森林の挙動を理解することを目的とした。
- 参考スコア(独自算出の注目度): 1.7103406524471811
- License:
- Abstract: Random forests have become popular for clinical risk prediction modelling. In a case study on predicting ovarian malignancy, we observed training c-statistics close to 1. Although this suggests overfitting, performance was competitive on test data. We aimed to understand the behaviour of random forests by (1) visualizing data space in three real world case studies and (2) a simulation study. For the case studies, risk estimates were visualised using heatmaps in a 2-dimensional subspace. The simulation study included 48 logistic data generating mechanisms (DGM), varying the predictor distribution, the number of predictors, the correlation between predictors, the true c-statistic and the strength of true predictors. For each DGM, 1000 training datasets of size 200 or 4000 were simulated and RF models trained with minimum node size 2 or 20 using ranger package, resulting in 192 scenarios in total. The visualizations suggested that the model learned spikes of probability around events in the training set. A cluster of events created a bigger peak, isolated events local peaks. In the simulation study, median training c-statistics were between 0.97 and 1 unless there were 4 or 16 binary predictors with minimum node size 20. Median test c-statistics were higher with higher events per variable, higher minimum node size, and binary predictors. Median training slopes were always above 1, and were not correlated with median test slopes across scenarios (correlation -0.11). Median test slopes were higher with higher true c-statistic, higher minimum node size, and higher sample size. Random forests learn local probability peaks that often yield near perfect training c-statistics without strongly affecting c-statistics on test data. When the aim is probability estimation, the simulation results go against the common recommendation to use fully grown trees in random forest models.
- Abstract(参考訳): ランダム森林は臨床リスク予測モデルとして人気を博している。
卵巣悪性度予測のケーススタディでは,c-statisticsを1。
これは過度な適合を示唆するが、パフォーマンスはテストデータで競争力があった。
本研究では,(1)実世界の3つのケーススタディにおけるデータ空間の可視化,(2)シミュレーション研究により,ランダムな森林の行動を理解することを目的とした。
ケーススタディでは,2次元部分空間のヒートマップを用いてリスク推定を行った。
シミュレーション研究は、48のロジスティックデータ生成機構(DGM)、予測器分布、予測器数、予測器間の相関、真のc-統計、真の予測器の強度などを含む。
各DGMに対して、サイズ200または4000の1000のトレーニングデータセットをシミュレートし、レンジャーパッケージを使用して最小ノードサイズ2または20でトレーニングされたRFモデルにより、合計192のシナリオが得られた。
可視化は、トレーニングセット内の事象に関する確率のスパイクをモデルが学習したことを示唆している。
イベントのクラスタは、より大きく、独立したイベントローカルピークを生成した。
シミュレーション実験では、ノードサイズ20の2進予測器が4つまたは16つない限り、中央値のC-統計値が0.97から1であった。
中間試験 c-statistics は、変数当たりの高イベント、最小ノードサイズ、バイナリ予測器で高い値を示した。
中間訓練斜面は, 常に1以上であり, シナリオの中央値と相関は認められなかった(相関-0.11)。
中間試験勾配は, 真のc-統計値が高く, 極小ノードサイズが高く, 試料サイズが高かった。
ランダム・フォレストは、テストデータにおけるc-統計に強く影響を与えずに、しばしば完全に近いc-統計をもたらす局所的な確率ピークを学習する。
確率推定が目的である場合、シミュレーション結果は、ランダムな森林モデルに完全に成長した木を用いるという一般的な推奨に反する。
関連論文リスト
- Do Contemporary CATE Models Capture Real-World Heterogeneity? Findings from a Large-Scale Benchmark [39.06952509635041]
本研究では,条件平均処理効果(CATE)推定アルゴリズムを大規模ベンチマークで評価し,予期せぬ結果を示す。
a) CATE推定の62%は、自明なゼロエフェクト予測よりも平均二乗誤差(MSE)が高く、少なくとも1つの有用なCATE推定を持つデータセットでは、80%は、定数エフェクトモデルよりも高いMSEを持ち、c) オルソゴン性に基づくモデルは、他のモデルよりも30%高い。
論文 参考訳(メタデータ) (2024-10-09T16:04:40Z) - Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
さらに、テストポイントがトレーニングセットと非自明な相関を持ち、時系列予測で頻繁に発生するような場合まで分析を拡張します。
我々は多種多様な高次元データにまたがって理論を検証する。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Comparison of static and dynamic random forests models for EHR data in the presence of competing risks: predicting central line-associated bloodstream infection [2.202802833281752]
病院の入院に関する予後の結果は、一般的に検閲に苦しめられず、分類的にも時間的にもモデル化できる。
本研究は無作為林(RF)モデルを用いて中央線関連血液ストリーム感染症(CLABSI)の発症リスクを予測した。
論文 参考訳(メタデータ) (2024-04-24T18:31:48Z) - Regression Trees for Fast and Adaptive Prediction Intervals [2.6763498831034043]
本稿では,局所的なカバレッジ保証を伴う回帰問題に対して,予測間隔を調整するための一連の手法を提案する。
回帰木とランダムフォレストを適合度スコアでトレーニングすることで分割を作成する。
提案手法は多種多様な適合性スコアや予測設定に適用できるため,多種多様である。
論文 参考訳(メタデータ) (2024-02-12T01:17:09Z) - Random survival forests for competing risks with multivariate
longitudinal endogenous covariates [0.0]
本稿では,多数の長手予測器を用いて事象の確率を予測する革新的な手法を提案する。
DynForestは、内因性縦予測器を扱う競合するリスクのためのランダムサバイバル森林の拡張である。
論文 参考訳(メタデータ) (2022-08-11T12:58:11Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - An Interpretable Web-based Glioblastoma Multiforme Prognosis Prediction
Tool using Random Forest Model [1.1024591739346292]
治療後1年間のGBM患者の健康状態を推定する予測モデルを提案する。
総計467名のGBM患者の臨床像を13の特徴と2つの経過日で比較検討した。
GBM患者生存の予後因子のトップ3はMGMT遺伝子プロモーター,切除範囲,年齢であった。
論文 参考訳(メタデータ) (2021-08-30T07:56:34Z) - When in Doubt: Neural Non-Parametric Uncertainty Quantification for
Epidemic Forecasting [70.54920804222031]
既存の予測モデルは不確実な定量化を無視し、誤校正予測をもたらす。
不確実性を考慮した時系列予測のためのディープニューラルネットワークの最近の研究にもいくつかの制限がある。
本稿では,予測タスクを確率的生成過程としてモデル化し,EPIFNPと呼ばれる機能的ニューラルプロセスモデルを提案する。
論文 参考訳(メタデータ) (2021-06-07T18:31:47Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Improving Maximum Likelihood Training for Text Generation with Density
Ratio Estimation [51.091890311312085]
本稿では,テキスト生成で遭遇する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニング手法を提案する。
本手法は,品質と多様性の両面で,最大類似度推定や他の最先端シーケンス生成モデルよりも安定に優れている。
論文 参考訳(メタデータ) (2020-07-12T15:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。