論文の概要: FACT: High-Dimensional Random Forests Inference
- arxiv url: http://arxiv.org/abs/2207.01678v1
- Date: Mon, 4 Jul 2022 19:05:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 14:28:11.927928
- Title: FACT: High-Dimensional Random Forests Inference
- Title(参考訳): FACT:高次元ランダムフォレスト推論
- Authors: Chien-Ming Chi, Yingying Fan, Jinchi Lv
- Abstract要約: 本研究では、ランダム森林モデルにおける特徴量の重要性を評価するための自己正規化特徴残差相関試験(FACT)の枠組みを提案する。
我々は、バイアス補正のためのインバランシングと条件付けの手法を利用する。
比較的一般的な高次元の非パラメトリックモデル設定の下では、FACTが理論的に正当化されたランダムな森林にp-値を特徴付けることができることを正式に証明する。
- 参考スコア(独自算出の注目度): 5.759608579971382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Random forests is one of the most widely used machine learning methods over
the past decade thanks to its outstanding empirical performance. Yet, because
of its black-box nature, the results by random forests can be hard to interpret
in many big data applications. Quantifying the usefulness of individual
features in random forests learning can greatly enhance its interpretability.
Existing studies have shown that some popularly used feature importance
measures for random forests suffer from the bias issue. In addition, there lack
comprehensive size and power analyses for most of these existing methods. In
this paper, we approach the problem via hypothesis testing, and suggest a
framework of the self-normalized feature-residual correlation test (FACT) for
evaluating the significance of a given feature in the random forests model with
bias-resistance property, where our null hypothesis concerns whether the
feature is conditionally independent of the response given all other features.
Such an endeavor on random forests inference is empowered by some recent
developments on high-dimensional random forests consistency. The vanilla
version of our FACT test can suffer from the bias issue in the presence of
feature dependency. We exploit the techniques of imbalancing and conditioning
for bias correction. We further incorporate the ensemble idea into the FACT
statistic through feature transformations for the enhanced power. Under a
fairly general high-dimensional nonparametric model setting with dependent
features, we formally establish that FACT can provide theoretically justified
random forests feature p-values and enjoy appealing power through nonasymptotic
analyses. The theoretical results and finite-sample advantages of the newly
suggested method are illustrated with several simulation examples and an
economic forecasting application in relation to COVID-19.
- Abstract(参考訳): ランダムフォレストは、その優れた経験的パフォーマンスのおかげで、過去10年間で最も広く使われている機械学習手法の1つです。
しかし、ブラックボックスの性質のため、ランダムな森林による結果は、多くのビッグデータアプリケーションで解釈することは困難である。
ランダム森林学習における個々の特徴の有用性の定量化は、その解釈可能性を大幅に向上させる。
既存の研究では、ランダム林に対する特徴重要度対策がバイアス問題に苦しんでいることが示されている。
さらに、これらの既存手法の大部分が網羅的なサイズと電力分析を欠いている。
本稿では,仮説テストを通じてこの問題にアプローチし,バイアス耐性特性を持つランダムフォレストモデルにおける特徴の意義を評価するための自己正規化特徴対応相関テスト(fact)の枠組みを提案する。
このような無作為な森林推定への取り組みは、高次元の無作為な森林の整合性に関する最近の発展によって促進されている。
FACTテストのバニラバージョンは、機能依存の存在下でバイアスの問題に悩まされる可能性があります。
偏り補正には不均衡とコンディショニングの手法を活用している。
さらに,拡張パワーに対する機能変換を通じて,アンサンブルのアイデアを事実統計に取り入れる。
比較的一般的な高次元非パラメトリックモデルにおいて,FACTは理論上正当化されたランダムな森林にp値を持たせることができ,非漸近解析による魅力あるパワーを享受できることを正式に証明した。
提案手法の理論的結果と有限サンプルの利点をいくつかのシミュレーション例とcovid-19に関する経済予測の適用例で示す。
関連論文リスト
- Exogenous Randomness Empowering Random Forests [4.396860522241306]
平均二乗誤差(MSE)を個々の木と森林の両方に対して非漸近展開する。
以上の結果から,サブサンプリングは個々の樹木に比べて,ランダム林の偏りや分散を減少させることが明らかとなった。
ノイズ特性の存在は、ランダムな森林の性能を高める上で「祝福」として機能する。
論文 参考訳(メタデータ) (2024-11-12T05:06:10Z) - Identifiable Latent Neural Causal Models [82.14087963690561]
因果表現学習は、低レベルの観測データから潜伏した高レベルの因果表現を明らかにすることを目指している。
因果表現の識別可能性に寄与する分布シフトのタイプを決定する。
本稿では,本研究の成果を実用的なアルゴリズムに翻訳し,信頼性の高い潜在因果表現の取得を可能にする。
論文 参考訳(メタデータ) (2024-03-23T04:13:55Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Why do Random Forests Work? Understanding Tree Ensembles as
Self-Regularizing Adaptive Smoothers [68.76846801719095]
統計学で広く普及している偏りと分散還元に対する現在の高次二分法は、木のアンサンブルを理解するには不十分である、と我々は主張する。
森林は、通常暗黙的に絡み合っている3つの異なるメカニズムによって、樹木を改良できることを示す。
論文 参考訳(メタデータ) (2024-02-02T15:36:43Z) - Simultaneous inference for generalized linear models with unmeasured confounders [0.0]
本稿では,構造を利用して線形射影を3つの重要な段階に統合する,統一的な統計的推定と推測の枠組みを提案する。
サンプルおよび応答サイズとして$z$-testsの効果的なType-Iエラー制御が無限大に近づくことを示す。
論文 参考訳(メタデータ) (2023-09-13T18:53:11Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Bayesian Hierarchical Models for Counterfactual Estimation [12.159830463756341]
本稿では,多種多様なカウンターファクトの集合を推定する確率的パラダイムを提案する。
摂動を事前分布関数によるランダム変数として扱う。
収束特性の優れた勾配ベースサンプリング器は、後方サンプルを効率的に計算する。
論文 参考訳(メタデータ) (2023-01-21T00:21:11Z) - Modeling Uncertain Feature Representation for Domain Generalization [49.129544670700525]
提案手法は,複数の視覚タスクにおけるネットワーク一般化能力を常に改善することを示す。
我々の手法は単純だが有効であり、トレーニング可能なパラメータや損失制約を伴わずにネットワークに容易に統合できる。
論文 参考訳(メタデータ) (2023-01-16T14:25:02Z) - What Makes Forest-Based Heterogeneous Treatment Effect Estimators Work? [1.1050303097572156]
両手法がL2損失下で同じパラメータと共起仮定で理解可能であることを示す。
ランダム化環境では、両方のアプローチはベンチマーク研究で新しいブレンドバージョンと同様に実行された。
論文 参考訳(メタデータ) (2022-06-21T12:45:07Z) - Uncertainty Modeling for Out-of-Distribution Generalization [56.957731893992495]
特徴統計を適切に操作することで、ディープラーニングモデルの一般化能力を向上させることができると論じる。
一般的な手法では、特徴統計を学習した特徴から測定された決定論的値とみなすことが多い。
我々は、学習中に合成された特徴統計を用いて、領域シフトの不確かさをモデル化することにより、ネットワークの一般化能力を向上させる。
論文 参考訳(メタデータ) (2022-02-08T16:09:12Z) - Towards Robust Classification with Deep Generative Forests [13.096855747795303]
決定木とランダムフォレストは最も広く使われている機械学習モデルの一つである。
主に識別モデルであるため、予測の不確実性を操作するための原則的な方法が欠けている。
我々はジェネレーティブフォレスト(GeF)を利用してランダムフォレストを特徴空間上の全関節分布を表す生成モデルに拡張する。
論文 参考訳(メタデータ) (2020-07-11T08:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。