論文の概要: Sequential Permutation Testing of Random Forest Variable Importance
Measures
- arxiv url: http://arxiv.org/abs/2206.01284v1
- Date: Thu, 2 Jun 2022 20:16:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 14:01:09.790590
- Title: Sequential Permutation Testing of Random Forest Variable Importance
Measures
- Title(参考訳): ランダム森林変数重要度尺度の逐次置換試験
- Authors: Alexander Hapfelmeier, Roman Hornung, Bernhard Haller
- Abstract要約: そこで本研究では、逐次置換テストと逐次p値推定を用いて、従来の置換テストに関連する高い計算コストを削減することを提案する。
シミュレーション研究の結果、シーケンシャルテストの理論的性質が当てはまることを確認した。
本手法の数値安定性を2つの応用研究で検討した。
- 参考スコア(独自算出の注目度): 68.8204255655161
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Hypothesis testing of random forest (RF) variable importance measures (VIMP)
remains the subject of ongoing research. Among recent developments, heuristic
approaches to parametric testing have been proposed whose distributional
assumptions are based on empirical evidence. Other formal tests under
regularity conditions were derived analytically. However, these approaches can
be computationally expensive or even practically infeasible. This problem also
occurs with non-parametric permutation tests, which are, however,
distribution-free and can generically be applied to any type of RF and VIMP.
Embracing this advantage, it is proposed here to use sequential permutation
tests and sequential p-value estimation to reduce the high computational costs
associated with conventional permutation tests. The popular and widely used
permutation VIMP serves as a practical and relevant application example. The
results of simulation studies confirm that the theoretical properties of the
sequential tests apply, that is, the type-I error probability is controlled at
a nominal level and a high power is maintained with considerably fewer
permutations needed in comparison to conventional permutation testing. The
numerical stability of the methods is investigated in two additional
application studies. In summary, theoretically sound sequential permutation
testing of VIMP is possible at greatly reduced computational costs.
Recommendations for application are given. A respective implementation is
provided through the accompanying R package $rfvimptest$. The approach can also
be easily applied to any kind of prediction model.
- Abstract(参考訳): ランダム森林(RF)変動重要度尺度(VIMP)の仮説テストは現在も進行中の研究の対象となっている。
近年の進展の中で、分布仮定は経験的証拠に基づくパラメトリックテストに対するヒューリスティックなアプローチが提案されている。
規則性条件下での他の公式な試験は解析的に導かれた。
しかし、これらの手法は計算コストがかかり、実際は実現不可能である。
この問題は、非パラメトリックな置換テストでも発生し、これは分布自由であり、任意の種類のRFやVIMPに適用できる。
この利点を活かし, 逐次置換テストと逐次p値推定を用いて, 従来の置換テストに伴う高い計算コストを削減することを提案する。
広く普及している順列 vimp は実用的かつ関連する応用例である。
シミュレーション実験の結果、逐次テストの理論的性質、すなわち、タイプiの誤差確率を名目レベルで制御し、従来の置換試験に比べてかなり少ない置換率で高い電力を維持できることが確認された。
本手法の数値安定性を2つの応用研究で検討した。
要約すると、理論上VIMPの逐次置換試験は計算コストを大幅に削減できる。
出願の勧告が下される。
それぞれの実装は、付随するRパッケージ$rfvimptest$を通じて提供される。
このアプローチは、任意の種類の予測モデルにも容易に適用できる。
関連論文リスト
- Conformal Generative Modeling with Improved Sample Efficiency through Sequential Greedy Filtering [55.15192437680943]
生成モデルは出力に対する厳密な統計的保証を欠いている。
厳密な統計的保証を満たす予測セットを生成する逐次共形予測法を提案する。
このことは、高い確率で予測セットが少なくとも1つの許容可能な(または有効な)例を含むことを保証している。
論文 参考訳(メタデータ) (2024-10-02T15:26:52Z) - Max-Rank: Efficient Multiple Testing for Conformal Prediction [43.56898111853698]
多重仮説テスト(MHT)は、ゲノミクスから心理学まで、様々な科学分野において一般的に発生し、多くの仮説のテストが同時にタイプIエラーのリスクを増大させる。
本稿では,これらの依存関係を有効活用する新たな補正法であるtextttmax-rank$を提案する。
論文 参考訳(メタデータ) (2023-11-17T22:44:22Z) - Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Near-Optimal Non-Parametric Sequential Tests and Confidence Sequences
with Possibly Dependent Observations [44.71254888821376]
我々は、一般的な非データ生成プロセスの下で、最初のタイプIエラーと予測リジェクション時間保証を提供する。
本研究では, 平均処理効果など, 方程式を推定することによって定義されるパラメータの推測に, 結果を適用する方法を示す。
論文 参考訳(メタデータ) (2022-12-29T18:37:08Z) - Variance Minimization in the Wasserstein Space for Invariant Causal
Prediction [72.13445677280792]
そこで本研究では,ICPで行ったアプローチを,予測器数で線形にスケールする一連の非パラメトリックテストとして再検討する。
これらのテストはそれぞれ、最適輸送理論の道具から導かれる新しい損失関数の最小化に依存している。
我々は,本手法が同定可能な直接原因の集合を回復できるという軽微な仮定の下で証明し,他のベンチマーク因果探索アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2021-10-13T22:30:47Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - Selective Probabilistic Classifier Based on Hypothesis Testing [14.695979686066066]
分類器の閉世界仮定の違反に対処するためのシンプルで効果的な方法を提案する。
提案手法は確率的ネットワークを用いた仮説テストに基づく拒絶オプションである。
提案手法は, より広い操作範囲を達成でき, 代替手段よりも低い偽陽性比をカバーできることが示されている。
論文 参考訳(メタデータ) (2021-05-09T08:55:56Z) - Asymptotic Validity and Finite-Sample Properties of Approximate Randomization Tests [2.28438857884398]
我々の理論的な重要な貢献は、ノイズレスデータを用いた近似ランダム化テストのサイズと元のランダム化テストのサイズとの差に非漸近的境界を持つことである。
線形回帰における有意性のテストを含むいくつかの例を通して、我々の理論を解説する。
論文 参考訳(メタデータ) (2019-08-12T16:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。