論文の概要: Effect of hyperparameters on variable selection in random forests
- arxiv url: http://arxiv.org/abs/2309.06943v1
- Date: Wed, 13 Sep 2023 13:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 14:10:52.494441
- Title: Effect of hyperparameters on variable selection in random forests
- Title(参考訳): ランダム林の変動選択に及ぼすハイパーパラメータの影響
- Authors: Cesaire J. K. Fouodo, Lea L. Kronziel, Inke R. K\"onig, Silke Szymczak
- Abstract要約: ランダムフォレスト(RF)は、高次元オミクス研究において、予測モデリングと変分選択によく適している。
理論的分布と経験的遺伝子発現データを用いた2つのシミュレーション研究に基づいて,VitaおよびBoruta変数選択法の効果を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Random forests (RFs) are well suited for prediction modeling and variable
selection in high-dimensional omics studies. The effect of hyperparameters of
the RF algorithm on prediction performance and variable importance estimation
have previously been investigated. However, how hyperparameters impact RF-based
variable selection remains unclear. We evaluate the effects on the Vita and the
Boruta variable selection procedures based on two simulation studies utilizing
theoretical distributions and empirical gene expression data. We assess the
ability of the procedures to select important variables (sensitivity) while
controlling the false discovery rate (FDR). Our results show that the
proportion of splitting candidate variables (mtry.prop) and the sample fraction
(sample.fraction) for the training dataset influence the selection procedures
more than the drawing strategy of the training datasets and the minimal
terminal node size. A suitable setting of the RF hyperparameters depends on the
correlation structure in the data. For weakly correlated predictor variables,
the default value of mtry is optimal, but smaller values of sample.fraction
result in larger sensitivity. In contrast, the difference in sensitivity of the
optimal compared to the default value of sample.fraction is negligible for
strongly correlated predictor variables, whereas smaller values than the
default are better in the other settings. In conclusion, the default values of
the hyperparameters will not always be suitable for identifying important
variables. Thus, adequate values differ depending on whether the aim of the
study is optimizing prediction performance or variable selection.
- Abstract(参考訳): ランダムフォレスト (rfs) は高次元オミクス研究における予測モデリングや変数選択に適している。
RFアルゴリズムのハイパーパラメータが予測性能および変数重要度推定に与える影響を以前検討した。
しかし、ハイパーパラメータがRFベースの変数選択にどのように影響するかは未定である。
理論的分布と経験的遺伝子発現データを用いた2つのシミュレーション研究に基づいて, Vita および Boruta 変数選択法の効果を評価する。
疑似発見率(FDR)を制御しながら重要な変数(感度)を選択する手順の能力を評価する。
以上の結果から,トレーニングデータセットの分割候補変数(mtry.prop)とサンプル分数(sample.fraction)の比率が,トレーニングデータセットの描画戦略や最小終端ノードサイズよりも選択手順に影響を及ぼすことが示された。
RFハイパーパラメータの適切な設定は、データの相関構造に依存する。
弱相関予測変数では、mtryのデフォルト値が最適であるが、サンプルの値が小さいと感度が高くなる。
対照的に、最適値の感度とサンプルのデフォルト値との差は、強く相関した予測変数では無視できるが、デフォルト値よりも小さい値の方が他の設定で優れている。
結論として、ハイパーパラメータのデフォルト値は必ずしも重要な変数を特定するのに適しているとは限らない。
したがって,本研究の目的が予測性能の最適化か変数選択かによって,適切な値が異なる。
関連論文リスト
- Knoop: Practical Enhancement of Knockoff with Over-Parameterization for Variable Selection [27.563529091471935]
この研究は、変数選択を強化するために、オーバーパラメータ化(Knoop)を備えた新しいアプローチであるKnockoffを導入する。
Knoopは、元の変数ごとに複数のノックオフ変数を生成し、元の変数とそれらをリッジレス回帰モデルに統合する。
実験はシミュレーションと実世界のデータセットの両方で既存の手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2025-01-28T09:27:04Z) - Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables [15.105594376616253]
非実験データから因果効果を推定することは、科学の多くの分野における根本的な問題である。
非パラメトリック因果効果推定における共変量選択のための新しい局所学習手法を提案する。
我々は、合成データと実世界のデータの両方に関する広範な実験を通じて、アルゴリズムを検証する。
論文 参考訳(メタデータ) (2024-11-25T12:08:54Z) - Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Model-independent variable selection via the rule-based variable priority [1.2771542695459488]
モデルに依存しない新しいアプローチである可変優先度(VarPro)を導入する。
VarProは、人工データを生成したり、予測エラーを評価することなく、ルールを活用する。
VarProはノイズ変数に対して一貫したフィルタリング特性を持つことを示す。
論文 参考訳(メタデータ) (2024-09-13T17:32:05Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Winning Prize Comes from Losing Tickets: Improve Invariant Learning by
Exploring Variant Parameters for Out-of-Distribution Generalization [76.27711056914168]
Out-of-Distribution (OOD) 一般化は、分散固有の特徴に適合することなく、様々な環境によく適応する堅牢なモデルを学ぶことを目的としている。
LTH(Lottery Ticket hypothesis)に基づく最近の研究は、学習目標を最小化し、タスクに重要なパラメータのいくつかを見つけることでこの問題に対処している。
Invariant Learning (EVIL) における変数探索手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T06:10:57Z) - Opening the random forest black box by the analysis of the mutual impact
of features [0.0]
ランダム林における特徴の相互影響に着目した2つの新しいアプローチを提案する。
MFIとMIRは、機能と成果の間の複雑な関係に光を当てることを非常に約束しています。
論文 参考訳(メタデータ) (2023-04-05T15:03:46Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Sampling-free Variational Inference for Neural Networks with
Multiplicative Activation Noise [51.080620762639434]
サンプリングフリー変動推論のための後方近似のより効率的なパラメータ化を提案する。
提案手法は,標準回帰問題に対する競合的な結果をもたらし,大規模画像分類タスクに適している。
論文 参考訳(メタデータ) (2021-03-15T16:16:18Z) - Variable Skipping for Autoregressive Range Density Estimation [84.60428050170687]
深部自己回帰モデルを用いた距離密度推定を高速化する手法である可変スキップについて述べる。
可変スキップは、10-100$timesの効率向上をもたらすことを示す。
論文 参考訳(メタデータ) (2020-07-10T19:01:40Z) - Variational Variance: Simple, Reliable, Calibrated Heteroscedastic Noise
Variance Parameterization [3.553493344868413]
本稿では,予測平均と分散キャリブレーションを検証し,予測分布が有意義なデータを生成する能力を評価するための批評を提案する。
ヘテロセダスティックな分散を多変量に処理するためには、これらのPPCを通過させるために分散を十分に規則化する必要がある。
論文 参考訳(メタデータ) (2020-06-08T19:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。