論文の概要: Effect of hyperparameters on variable selection in random forests
- arxiv url: http://arxiv.org/abs/2309.06943v1
- Date: Wed, 13 Sep 2023 13:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 14:10:52.494441
- Title: Effect of hyperparameters on variable selection in random forests
- Title(参考訳): ランダム林の変動選択に及ぼすハイパーパラメータの影響
- Authors: Cesaire J. K. Fouodo, Lea L. Kronziel, Inke R. K\"onig, Silke Szymczak
- Abstract要約: ランダムフォレスト(RF)は、高次元オミクス研究において、予測モデリングと変分選択によく適している。
理論的分布と経験的遺伝子発現データを用いた2つのシミュレーション研究に基づいて,VitaおよびBoruta変数選択法の効果を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Random forests (RFs) are well suited for prediction modeling and variable
selection in high-dimensional omics studies. The effect of hyperparameters of
the RF algorithm on prediction performance and variable importance estimation
have previously been investigated. However, how hyperparameters impact RF-based
variable selection remains unclear. We evaluate the effects on the Vita and the
Boruta variable selection procedures based on two simulation studies utilizing
theoretical distributions and empirical gene expression data. We assess the
ability of the procedures to select important variables (sensitivity) while
controlling the false discovery rate (FDR). Our results show that the
proportion of splitting candidate variables (mtry.prop) and the sample fraction
(sample.fraction) for the training dataset influence the selection procedures
more than the drawing strategy of the training datasets and the minimal
terminal node size. A suitable setting of the RF hyperparameters depends on the
correlation structure in the data. For weakly correlated predictor variables,
the default value of mtry is optimal, but smaller values of sample.fraction
result in larger sensitivity. In contrast, the difference in sensitivity of the
optimal compared to the default value of sample.fraction is negligible for
strongly correlated predictor variables, whereas smaller values than the
default are better in the other settings. In conclusion, the default values of
the hyperparameters will not always be suitable for identifying important
variables. Thus, adequate values differ depending on whether the aim of the
study is optimizing prediction performance or variable selection.
- Abstract(参考訳): ランダムフォレスト (rfs) は高次元オミクス研究における予測モデリングや変数選択に適している。
RFアルゴリズムのハイパーパラメータが予測性能および変数重要度推定に与える影響を以前検討した。
しかし、ハイパーパラメータがRFベースの変数選択にどのように影響するかは未定である。
理論的分布と経験的遺伝子発現データを用いた2つのシミュレーション研究に基づいて, Vita および Boruta 変数選択法の効果を評価する。
疑似発見率(FDR)を制御しながら重要な変数(感度)を選択する手順の能力を評価する。
以上の結果から,トレーニングデータセットの分割候補変数(mtry.prop)とサンプル分数(sample.fraction)の比率が,トレーニングデータセットの描画戦略や最小終端ノードサイズよりも選択手順に影響を及ぼすことが示された。
RFハイパーパラメータの適切な設定は、データの相関構造に依存する。
弱相関予測変数では、mtryのデフォルト値が最適であるが、サンプルの値が小さいと感度が高くなる。
対照的に、最適値の感度とサンプルのデフォルト値との差は、強く相関した予測変数では無視できるが、デフォルト値よりも小さい値の方が他の設定で優れている。
結論として、ハイパーパラメータのデフォルト値は必ずしも重要な変数を特定するのに適しているとは限らない。
したがって,本研究の目的が予測性能の最適化か変数選択かによって,適切な値が異なる。
関連論文リスト
- Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Quantifying predictive uncertainty of aphasia severity in stroke patients with sparse heteroscedastic Bayesian high-dimensional regression [47.1405366895538]
高次元データに対する疎線型回帰法は、通常、残留物が一定の分散を持つと仮定するが、これは実際には破ることができる。
本稿では,ヘテロセダスティック分割経験的ベイズ期待条件最大化アルゴリズムを用いて,高次元ヘテロセダスティック線形回帰モデルを推定する。
論文 参考訳(メタデータ) (2023-09-15T22:06:29Z) - Opening the random forest black box by the analysis of the mutual impact
of features [0.0]
ランダム林における特徴の相互影響に着目した2つの新しいアプローチを提案する。
MFIとMIRは、機能と成果の間の複雑な関係に光を当てることを非常に約束しています。
論文 参考訳(メタデータ) (2023-04-05T15:03:46Z) - Adaptive Selection of the Optimal Strategy to Improve Precision and
Power in Randomized Trials [2.048226951354646]
精度を最大化するために、どの変数とどの形式で調整アプローチを選択するかを示す。
このアプローチは、(nullの下で)Type-Iエラー制御を維持し、精度を大幅に向上させる。
実データに適用すると、全体およびサブグループ内で有意義な効率改善が見られる。
論文 参考訳(メタデータ) (2022-10-31T16:25:38Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - Variable selection with missing data in both covariates and outcomes:
Imputation and machine learning [1.0333430439241666]
欠落したデータ問題は、健康研究で普遍的です。
機械学習はパラメトリックな仮定を弱める。
XGBoostとBARTは、さまざまな設定で最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-04-06T20:18:29Z) - Increasing the efficiency of randomized trial estimates via linear
adjustment for a prognostic score [59.75318183140857]
ランダム化実験による因果効果の推定は臨床研究の中心である。
歴史的借用法のほとんどは、厳格なタイプiエラー率制御を犠牲にして分散の削減を達成する。
論文 参考訳(メタデータ) (2020-12-17T21:10:10Z) - Variational Variance: Simple, Reliable, Calibrated Heteroscedastic Noise
Variance Parameterization [3.553493344868413]
本稿では,予測平均と分散キャリブレーションを検証し,予測分布が有意義なデータを生成する能力を評価するための批評を提案する。
ヘテロセダスティックな分散を多変量に処理するためには、これらのPPCを通過させるために分散を十分に規則化する必要がある。
論文 参考訳(メタデータ) (2020-06-08T19:58:35Z) - Hyperparameter Selection for Subsampling Bootstraps [0.0]
BLBのようなサブサンプリング手法は、大量のデータに対する推定器の品質を評価する強力なツールとして機能する。
サブサンプリング法の性能は,チューニングパラメータの選択によって大きく影響を受ける。
本研究では,サブサンプリング手法のチューニングパラメータの選択に利用できるハイパーパラメータ選択手法を開発した。
シミュレーション研究と実データ解析の両方が,本手法の優位性を証明している。
論文 参考訳(メタデータ) (2020-06-02T17:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。