論文の概要: Interpretable random forest models through forward variable selection
- arxiv url: http://arxiv.org/abs/2005.05113v1
- Date: Mon, 11 May 2020 13:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 20:38:46.979249
- Title: Interpretable random forest models through forward variable selection
- Title(参考訳): 前方変動選択による解釈可能な森林モデル
- Authors: Jasper Velthoen, Juan-Juan Cai, Geurt Jongbloed
- Abstract要約: 損失関数としてCRPS(Continuous Rank probability score)を用いた前方変数選択法を開発した。
本手法のオランダにおける日次最大気温予測の統計的後処理への応用を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Random forest is a popular prediction approach for handling high dimensional
covariates. However, it often becomes infeasible to interpret the obtained high
dimensional and non-parametric model. Aiming for obtaining an interpretable
predictive model, we develop a forward variable selection method using the
continuous ranked probability score (CRPS) as the loss function. Our stepwise
procedure leads to a smallest set of variables that optimizes the CRPS risk by
performing at each step a hypothesis test on a significant decrease in CRPS
risk. We provide mathematical motivation for our method by proving that in
population sense the method attains the optimal set. Additionally, we show that
the test is consistent provided that the random forest estimator of a quantile
function is consistent.
In a simulation study, we compare the performance of our method with an
existing variable selection method, for different sample sizes and different
correlation strength of covariates. Our method is observed to have a much lower
false positive rate. We also demonstrate an application of our method to
statistical post-processing of daily maximum temperature forecasts in the
Netherlands. Our method selects about 10% covariates while retaining the same
predictive power.
- Abstract(参考訳): ランダムフォレストは高次元共変量を扱う一般的な予測手法である。
しかし、得られる高次元および非パラメトリックモデルを理解することはしばしば不可能になる。
解釈可能な予測モデルを得るために,CRPS(Continuous Rank probability score)を損失関数として用いた前方変数選択法を開発した。
我々のステップワイドな手順は、CRPSリスクを著しく減少させる仮説テストを実行することで、CRPSリスクを最適化する最小の変数セットにつながる。
我々は,本手法が最適セットに達することを証明することによって,本手法の数学的モチベーションを提供する。
さらに, 定位関数のランダム森林推定器が一貫していれば, テストは一貫性があることを示す。
本研究では,提案手法の性能を既存変数選択法と比較し,異なるサンプルサイズと共変量相関強度について検討した。
本法は偽陽性率よりもはるかに低い値を示した。
また,オランダにおける日次最大気温予測の統計的後処理に本手法を適用した。
同じ予測力を保ちながら約10%の共変量を選択する。
関連論文リスト
- Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Bagging in overparameterized learning: Risk characterization and risk
monotonization [2.6534407766508177]
本研究では, 比例法の下で, 適応型予測器の変種予測リスクについて検討した。
具体的には,タグ付き予測器の2乗誤差損失下での予測リスクを解析するための一般的な手法を提案する。
論文 参考訳(メタデータ) (2022-10-20T17:45:58Z) - Learning from a Biased Sample [3.546358664345473]
本稿では,テスト分布のファミリーで発生する最悪のリスクを最小限に抑える決定ルールの学習方法を提案する。
本研究では,健康調査データからメンタルヘルススコアの予測を行うケーススタディにおいて,提案手法を実証的に検証した。
論文 参考訳(メタデータ) (2022-09-05T04:19:16Z) - Lazy Estimation of Variable Importance for Large Neural Networks [22.95405462638975]
そこで本研究では,重要な推論保証付き縮小モデルを高速かつフレキシブルに近似する手法を提案する。
いくつかのデータ生成体制下では,本手法が高速かつ正確であることを示し,季節風予報の例で実世界の適用性を示す。
論文 参考訳(メタデータ) (2022-07-19T06:28:17Z) - Comparing two samples through stochastic dominance: a graphical approach [2.867517731896504]
実世界のシナリオでは非決定論的測定が一般的である。
推定累積分布関数に従って2つのサンプルを視覚的に比較するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T13:37:03Z) - Variational Bayes for high-dimensional proportional hazards models with
applications to gene expression variable selection [3.8761064607384195]
本研究では,高次元生存データに対する予測と変動選択のための変分ベイズ比例ハザードモデルを提案する。
本手法は,平均場変動近似に基づいて,MCMCの高計算コストを克服する。
提案手法は,生存率を検閲した2つのトランスクリプトームデータセット上で,変数選択にどのように使用できるかを示す。
論文 参考訳(メタデータ) (2021-12-19T22:10:41Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - Sampling-free Variational Inference for Neural Networks with
Multiplicative Activation Noise [51.080620762639434]
サンプリングフリー変動推論のための後方近似のより効率的なパラメータ化を提案する。
提案手法は,標準回帰問題に対する競合的な結果をもたらし,大規模画像分類タスクに適している。
論文 参考訳(メタデータ) (2021-03-15T16:16:18Z) - Tracking disease outbreaks from sparse data with Bayesian inference [55.82986443159948]
新型コロナウイルス(COVID-19)のパンデミックは、感染発生時の感染率を推定する新たな動機を与える。
標準的な手法は、より細かいスケールで共通する部分的な観測可能性とスパースなデータに対応するのに苦労する。
原理的に部分観測可能なベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-12T20:37:33Z) - Improving Maximum Likelihood Training for Text Generation with Density
Ratio Estimation [51.091890311312085]
本稿では,テキスト生成で遭遇する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニング手法を提案する。
本手法は,品質と多様性の両面で,最大類似度推定や他の最先端シーケンス生成モデルよりも安定に優れている。
論文 参考訳(メタデータ) (2020-07-12T15:31:24Z) - A One-step Approach to Covariate Shift Adaptation [82.01909503235385]
多くの機械学習シナリオにおけるデフォルトの前提は、トレーニングとテストサンプルは同じ確率分布から引き出されることである。
予測モデルと関連する重みを1つの最適化で共同で学習する新しいワンステップアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-08T11:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。