Fugu-MT 論文翻訳(概要): Effect of hyperparameters on variable selection in random forests

論文の概要: Effect of hyperparameters on variable selection in random forests

arxiv url: http://arxiv.org/abs/2309.06943v1
Date: Wed, 13 Sep 2023 13:26:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-14 14:10:52.494441
Title: Effect of hyperparameters on variable selection in random forests
Title（参考訳）: ランダム林の変動選択に及ぼすハイパーパラメータの影響
Authors: Cesaire J. K. Fouodo, Lea L. Kronziel, Inke R. K\"onig, Silke Szymczak
Abstract要約: ランダムフォレスト(RF)は、高次元オミクス研究において、予測モデリングと変分選択によく適している。理論的分布と経験的遺伝子発現データを用いた2つのシミュレーション研究に基づいて,VitaおよびBoruta変数選択法の効果を評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Random forests (RFs) are well suited for prediction modeling and variable selection in high-dimensional omics studies. The effect of hyperparameters of the RF algorithm on prediction performance and variable importance estimation have previously been investigated. However, how hyperparameters impact RF-based variable selection remains unclear. We evaluate the effects on the Vita and the Boruta variable selection procedures based on two simulation studies utilizing theoretical distributions and empirical gene expression data. We assess the ability of the procedures to select important variables (sensitivity) while controlling the false discovery rate (FDR). Our results show that the proportion of splitting candidate variables (mtry.prop) and the sample fraction (sample.fraction) for the training dataset influence the selection procedures more than the drawing strategy of the training datasets and the minimal terminal node size. A suitable setting of the RF hyperparameters depends on the correlation structure in the data. For weakly correlated predictor variables, the default value of mtry is optimal, but smaller values of sample.fraction result in larger sensitivity. In contrast, the difference in sensitivity of the optimal compared to the default value of sample.fraction is negligible for strongly correlated predictor variables, whereas smaller values than the default are better in the other settings. In conclusion, the default values of the hyperparameters will not always be suitable for identifying important variables. Thus, adequate values differ depending on whether the aim of the study is optimizing prediction performance or variable selection.
Abstract（参考訳）: ランダムフォレスト (rfs) は高次元オミクス研究における予測モデリングや変数選択に適している。 RFアルゴリズムのハイパーパラメータが予測性能および変数重要度推定に与える影響を以前検討した。しかし、ハイパーパラメータがRFベースの変数選択にどのように影響するかは未定である。理論的分布と経験的遺伝子発現データを用いた2つのシミュレーション研究に基づいて, Vita および Boruta 変数選択法の効果を評価する。疑似発見率(FDR)を制御しながら重要な変数(感度)を選択する手順の能力を評価する。以上の結果から,トレーニングデータセットの分割候補変数(mtry.prop)とサンプル分数(sample.fraction)の比率が,トレーニングデータセットの描画戦略や最小終端ノードサイズよりも選択手順に影響を及ぼすことが示された。 RFハイパーパラメータの適切な設定は、データの相関構造に依存する。弱相関予測変数では、mtryのデフォルト値が最適であるが、サンプルの値が小さいと感度が高くなる。対照的に、最適値の感度とサンプルのデフォルト値との差は、強く相関した予測変数では無視できるが、デフォルト値よりも小さい値の方が他の設定で優れている。結論として、ハイパーパラメータのデフォルト値は必ずしも重要な変数を特定するのに適しているとは限らない。したがって,本研究の目的が予測性能の最適化か変数選択かによって,適切な値が異なる。

関連論文リスト

Regression-Based Estimation of Causal Effects in the Presence of Selection Bias and Confounding [52.1068936424622]
治療が介入によって設定された場合、対象変数$Y$に対して、予測因果効果$E[Y|do(X)]$を推定する問題を考える。選択バイアスや欠点のない設定では、$E[Y|do(X)] = E[Y|X]$ となる。選択バイアスとコンバウンディングの両方を組み込んだフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-26T13:43:37Z)
Knoop: Practical Enhancement of Knockoff with Over-Parameterization for Variable Selection [27.563529091471935]
この研究は、変数選択を強化するために、オーバーパラメータ化(Knoop)を備えた新しいアプローチであるKnockoffを導入する。 Knoopは、元の変数ごとに複数のノックオフ変数を生成し、元の変数とそれらをリッジレス回帰モデルに統合する。実験はシミュレーションと実世界のデータセットの両方で既存の手法と比較して優れた性能を示す。
論文参考訳（メタデータ） (2025-01-28T09:27:04Z)
Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables [15.105594376616253]
非実験データから因果効果を推定することは、科学の多くの分野における根本的な問題である。非パラメトリック因果効果推定における共変量選択のための新しい局所学習手法を提案する。我々は、合成データと実世界のデータの両方に関する広範な実験を通じて、アルゴリズムを検証する。
論文参考訳（メタデータ） (2024-11-25T12:08:54Z)
Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文参考訳（メタデータ） (2024-11-04T14:29:02Z)
Model-independent variable selection via the rule-based variable priority [1.2771542695459488]
モデルに依存しない新しいアプローチである可変優先度(VarPro)を導入する。 VarProは、人工データを生成したり、予測エラーを評価することなく、ルールを活用する。 VarProはノイズ変数に対して一貫したフィルタリング特性を持つことを示す。
論文参考訳（メタデータ） (2024-09-13T17:32:05Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
Winning Prize Comes from Losing Tickets: Improve Invariant Learning by Exploring Variant Parameters for Out-of-Distribution Generalization [76.27711056914168]
Out-of-Distribution (OOD) 一般化は、分散固有の特徴に適合することなく、様々な環境によく適応する堅牢なモデルを学ぶことを目的としている。 LTH(Lottery Ticket hypothesis)に基づく最近の研究は、学習目標を最小化し、タスクに重要なパラメータのいくつかを見つけることでこの問題に対処している。 Invariant Learning (EVIL) における変数探索手法を提案する。
論文参考訳（メタデータ） (2023-10-25T06:10:57Z)
Quantifying predictive uncertainty of aphasia severity in stroke patients with sparse heteroscedastic Bayesian high-dimensional regression [47.1405366895538]
高次元データに対する疎線型回帰法は、通常、残留物が一定の分散を持つと仮定するが、これは実際には破ることができる。本稿では,ヘテロセダスティック分割経験的ベイズ期待条件最大化アルゴリズムを用いて,高次元ヘテロセダスティック線形回帰モデルを推定する。
論文参考訳（メタデータ） (2023-09-15T22:06:29Z)
Opening the random forest black box by the analysis of the mutual impact of features [0.0]
ランダム林における特徴の相互影響に着目した2つの新しいアプローチを提案する。 MFIとMIRは、機能と成果の間の複雑な関係に光を当てることを非常に約束しています。
論文参考訳（メタデータ） (2023-04-05T15:03:46Z)
Adaptive Selection of the Optimal Strategy to Improve Precision and Power in Randomized Trials [2.048226951354646]
精度を最大化するために、どの変数とどの形式で調整アプローチを選択するかを示す。このアプローチは、(nullの下で)Type-Iエラー制御を維持し、精度を大幅に向上させる。実データに適用すると、全体およびサブグループ内で有意義な効率改善が見られる。
論文参考訳（メタデータ） (2022-10-31T16:25:38Z)
Sparse high-dimensional linear regression with a partitioned empirical Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。提案手法はRパッケージプローブに実装されている。
論文参考訳（メタデータ） (2022-09-16T19:15:50Z)
Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文参考訳（メタデータ） (2021-06-07T17:44:49Z)
Variable selection with missing data in both covariates and outcomes: Imputation and machine learning [1.0333430439241666]
欠落したデータ問題は、健康研究で普遍的です。機械学習はパラメトリックな仮定を弱める。 XGBoostとBARTは、さまざまな設定で最高のパフォーマンスを発揮します。
論文参考訳（メタデータ） (2021-04-06T20:18:29Z)
Sampling-free Variational Inference for Neural Networks with Multiplicative Activation Noise [51.080620762639434]
サンプリングフリー変動推論のための後方近似のより効率的なパラメータ化を提案する。提案手法は,標準回帰問題に対する競合的な結果をもたらし,大規模画像分類タスクに適している。
論文参考訳（メタデータ） (2021-03-15T16:16:18Z)
Increasing the efficiency of randomized trial estimates via linear adjustment for a prognostic score [59.75318183140857]
ランダム化実験による因果効果の推定は臨床研究の中心である。歴史的借用法のほとんどは、厳格なタイプiエラー率制御を犠牲にして分散の削減を達成する。
論文参考訳（メタデータ） (2020-12-17T21:10:10Z)
Variational Variance: Simple, Reliable, Calibrated Heteroscedastic Noise Variance Parameterization [3.553493344868413]
本稿では,予測平均と分散キャリブレーションを検証し,予測分布が有意義なデータを生成する能力を評価するための批評を提案する。ヘテロセダスティックな分散を多変量に処理するためには、これらのPPCを通過させるために分散を十分に規則化する必要がある。
論文参考訳（メタデータ） (2020-06-08T19:58:35Z)
Hyperparameter Selection for Subsampling Bootstraps [0.0]
BLBのようなサブサンプリング手法は、大量のデータに対する推定器の品質を評価する強力なツールとして機能する。サブサンプリング法の性能は,チューニングパラメータの選択によって大きく影響を受ける。本研究では,サブサンプリング手法のチューニングパラメータの選択に利用できるハイパーパラメータ選択手法を開発した。シミュレーション研究と実データ解析の両方が,本手法の優位性を証明している。
論文参考訳（メタデータ） (2020-06-02T17:10:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。