論文の概要: Sequential Permutation Testing of Random Forest Variable Importance
Measures
- arxiv url: http://arxiv.org/abs/2206.01284v1
- Date: Thu, 2 Jun 2022 20:16:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 14:01:09.790590
- Title: Sequential Permutation Testing of Random Forest Variable Importance
Measures
- Title(参考訳): ランダム森林変数重要度尺度の逐次置換試験
- Authors: Alexander Hapfelmeier, Roman Hornung, Bernhard Haller
- Abstract要約: そこで本研究では、逐次置換テストと逐次p値推定を用いて、従来の置換テストに関連する高い計算コストを削減することを提案する。
シミュレーション研究の結果、シーケンシャルテストの理論的性質が当てはまることを確認した。
本手法の数値安定性を2つの応用研究で検討した。
- 参考スコア(独自算出の注目度): 68.8204255655161
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Hypothesis testing of random forest (RF) variable importance measures (VIMP)
remains the subject of ongoing research. Among recent developments, heuristic
approaches to parametric testing have been proposed whose distributional
assumptions are based on empirical evidence. Other formal tests under
regularity conditions were derived analytically. However, these approaches can
be computationally expensive or even practically infeasible. This problem also
occurs with non-parametric permutation tests, which are, however,
distribution-free and can generically be applied to any type of RF and VIMP.
Embracing this advantage, it is proposed here to use sequential permutation
tests and sequential p-value estimation to reduce the high computational costs
associated with conventional permutation tests. The popular and widely used
permutation VIMP serves as a practical and relevant application example. The
results of simulation studies confirm that the theoretical properties of the
sequential tests apply, that is, the type-I error probability is controlled at
a nominal level and a high power is maintained with considerably fewer
permutations needed in comparison to conventional permutation testing. The
numerical stability of the methods is investigated in two additional
application studies. In summary, theoretically sound sequential permutation
testing of VIMP is possible at greatly reduced computational costs.
Recommendations for application are given. A respective implementation is
provided through the accompanying R package $rfvimptest$. The approach can also
be easily applied to any kind of prediction model.
- Abstract(参考訳): ランダム森林(RF)変動重要度尺度(VIMP)の仮説テストは現在も進行中の研究の対象となっている。
近年の進展の中で、分布仮定は経験的証拠に基づくパラメトリックテストに対するヒューリスティックなアプローチが提案されている。
規則性条件下での他の公式な試験は解析的に導かれた。
しかし、これらの手法は計算コストがかかり、実際は実現不可能である。
この問題は、非パラメトリックな置換テストでも発生し、これは分布自由であり、任意の種類のRFやVIMPに適用できる。
この利点を活かし, 逐次置換テストと逐次p値推定を用いて, 従来の置換テストに伴う高い計算コストを削減することを提案する。
広く普及している順列 vimp は実用的かつ関連する応用例である。
シミュレーション実験の結果、逐次テストの理論的性質、すなわち、タイプiの誤差確率を名目レベルで制御し、従来の置換試験に比べてかなり少ない置換率で高い電力を維持できることが確認された。
本手法の数値安定性を2つの応用研究で検討した。
要約すると、理論上VIMPの逐次置換試験は計算コストを大幅に削減できる。
出願の勧告が下される。
それぞれの実装は、付随するRパッケージ$rfvimptest$を通じて提供される。
このアプローチは、任意の種類の予測モデルにも容易に適用できる。
関連論文リスト
- An Efficient Permutation-Based Kernel Two-Sample Test [12.331562761756679]
2サンプル仮説テストは統計学と機械学習の基本的な問題である。
本研究では,最大平均誤差(MMD)のNystr "om approxation"を用いて,計算効率よく実用的なテストアルゴリズムを設計する。
論文 参考訳(メタデータ) (2025-02-19T09:22:48Z) - Cheap Permutation Testing [34.48696502346266]
置換テストは、分散を区別し、独立性をテストするための一般的な選択である。
標準的な置換テストも高価であり、テスト統計を数百から数千回計算する必要がある。
この作業では、データポイントをビンにグループ化し、それらのビンのみをパーミュレートする、テストの高速化のためのシンプルなアプローチを提供します。
論文 参考訳(メタデータ) (2025-02-11T16:19:07Z) - Permutation-Based Rank Test in the Presence of Discretization and Application in Causal Discovery with Mixed Data [16.892960387325743]
心理学的な研究において、ある人の特定の個性の次元の連続的なレベルは、離散化後にのみ測定できる。
変数が離散化されても統計的誤差を適切に制御できる混合データ置換型ランクテスト(MPRT)を提案する。
MPRTは離散化の有無でType Iエラーを効果的に制御できるが、以前の方法では制御できない。
論文 参考訳(メタデータ) (2025-01-31T09:47:26Z) - Conformal Generative Modeling with Improved Sample Efficiency through Sequential Greedy Filtering [55.15192437680943]
生成モデルは出力に対する厳密な統計的保証を欠いている。
厳密な統計的保証を満たす予測セットを生成する逐次共形予測法を提案する。
このことは、高い確率で予測セットが少なくとも1つの許容可能な(または有効な)例を含むことを保証している。
論文 参考訳(メタデータ) (2024-10-02T15:26:52Z) - Max-Rank: Efficient Multiple Testing for Conformal Prediction [43.56898111853698]
多重仮説テスト(MHT)は、ゲノミクスから心理学まで、様々な科学分野において一般的に発生し、多くの仮説のテストが同時にタイプIエラーのリスクを増大させる。
本稿では,これらの依存関係を有効活用する新たな補正法であるtextttmax-rank$を提案する。
論文 参考訳(メタデータ) (2023-11-17T22:44:22Z) - Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Near-Optimal Non-Parametric Sequential Tests and Confidence Sequences
with Possibly Dependent Observations [44.71254888821376]
我々は、一般的な非データ生成プロセスの下で、最初のタイプIエラーと予測リジェクション時間保証を提供する。
本研究では, 平均処理効果など, 方程式を推定することによって定義されるパラメータの推測に, 結果を適用する方法を示す。
論文 参考訳(メタデータ) (2022-12-29T18:37:08Z) - Variance Minimization in the Wasserstein Space for Invariant Causal
Prediction [72.13445677280792]
そこで本研究では,ICPで行ったアプローチを,予測器数で線形にスケールする一連の非パラメトリックテストとして再検討する。
これらのテストはそれぞれ、最適輸送理論の道具から導かれる新しい損失関数の最小化に依存している。
我々は,本手法が同定可能な直接原因の集合を回復できるという軽微な仮定の下で証明し,他のベンチマーク因果探索アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2021-10-13T22:30:47Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。