論文の概要: FACT: High-Dimensional Random Forests Inference
- arxiv url: http://arxiv.org/abs/2207.01678v2
- Date: Mon, 13 Nov 2023 04:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 23:10:10.482703
- Title: FACT: High-Dimensional Random Forests Inference
- Title(参考訳): FACT:高次元ランダムフォレスト推論
- Authors: Chien-Ming Chi, Yingying Fan, Jinchi Lv
- Abstract要約: ランダム森林学習における個々の特徴の有用性の定量化は、その解釈可能性を大幅に向上させる。
既存の研究では、ランダム森林の特徴的重要度尺度が偏見の問題に悩まされていることが示されている。
本研究では, 自己正規化特徴-残留相関テスト(FACT)の枠組みを提案する。
- 参考スコア(独自算出の注目度): 4.941630596191806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantifying the usefulness of individual features in random forests learning
can greatly enhance its interpretability. Existing studies have shown that some
popularly used feature importance measures for random forests suffer from the
bias issue. In addition, there lack comprehensive size and power analyses for
most of these existing methods. In this paper, we approach the problem via
hypothesis testing, and suggest a framework of the self-normalized
feature-residual correlation test (FACT) for evaluating the significance of a
given feature in the random forests model with bias-resistance property, where
our null hypothesis concerns whether the feature is conditionally independent
of the response given all other features. Such an endeavor on random forests
inference is empowered by some recent developments on high-dimensional random
forests consistency. Under a fairly general high-dimensional nonparametric
model setting with dependent features, we formally establish that FACT can
provide theoretically justified feature importance test with controlled type I
error and enjoy appealing power property. The theoretical results and
finite-sample advantages of the newly suggested method are illustrated with
several simulation examples and an economic forecasting application.
- Abstract(参考訳): ランダム森林学習における個々の特徴の有用性の定量化は、その解釈可能性を大幅に向上させる。
既存の研究では、ランダム林に対する特徴重要度対策がバイアス問題に苦しんでいることが示されている。
さらに、これらの既存手法の大部分が網羅的なサイズと電力分析を欠いている。
本稿では,仮説テストを通じてこの問題にアプローチし,バイアス耐性特性を持つランダムフォレストモデルにおける特徴の意義を評価するための自己正規化特徴対応相関テスト(fact)の枠組みを提案する。
このような無作為な森林推定への取り組みは、高次元の無作為な森林の整合性に関する最近の発展によって促進されている。
依存する特徴を持つ比較的一般的な高次元非パラメトリックモデル設定の下で、FACTが制御されたI型誤差で理論的に正当化された特徴重要度テストを提供し、魅力的なパワー特性を享受できることを正式に証明する。
提案手法の理論的結果と有限サンプルの利点をいくつかのシミュレーション例と経済予測法を用いて示す。
関連論文リスト
- Exogenous Randomness Empowering Random Forests [4.396860522241306]
平均二乗誤差(MSE)を個々の木と森林の両方に対して非漸近展開する。
以上の結果から,サブサンプリングは個々の樹木に比べて,ランダム林の偏りや分散を減少させることが明らかとなった。
ノイズ特性の存在は、ランダムな森林の性能を高める上で「祝福」として機能する。
論文 参考訳(メタデータ) (2024-11-12T05:06:10Z) - Identifiable Latent Neural Causal Models [82.14087963690561]
因果表現学習は、低レベルの観測データから潜伏した高レベルの因果表現を明らかにすることを目指している。
因果表現の識別可能性に寄与する分布シフトのタイプを決定する。
本稿では,本研究の成果を実用的なアルゴリズムに翻訳し,信頼性の高い潜在因果表現の取得を可能にする。
論文 参考訳(メタデータ) (2024-03-23T04:13:55Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Why do Random Forests Work? Understanding Tree Ensembles as
Self-Regularizing Adaptive Smoothers [68.76846801719095]
統計学で広く普及している偏りと分散還元に対する現在の高次二分法は、木のアンサンブルを理解するには不十分である、と我々は主張する。
森林は、通常暗黙的に絡み合っている3つの異なるメカニズムによって、樹木を改良できることを示す。
論文 参考訳(メタデータ) (2024-02-02T15:36:43Z) - Simultaneous inference for generalized linear models with unmeasured confounders [0.0]
本稿では,構造を利用して線形射影を3つの重要な段階に統合する,統一的な統計的推定と推測の枠組みを提案する。
サンプルおよび応答サイズとして$z$-testsの効果的なType-Iエラー制御が無限大に近づくことを示す。
論文 参考訳(メタデータ) (2023-09-13T18:53:11Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Bayesian Hierarchical Models for Counterfactual Estimation [12.159830463756341]
本稿では,多種多様なカウンターファクトの集合を推定する確率的パラダイムを提案する。
摂動を事前分布関数によるランダム変数として扱う。
収束特性の優れた勾配ベースサンプリング器は、後方サンプルを効率的に計算する。
論文 参考訳(メタデータ) (2023-01-21T00:21:11Z) - Modeling Uncertain Feature Representation for Domain Generalization [49.129544670700525]
提案手法は,複数の視覚タスクにおけるネットワーク一般化能力を常に改善することを示す。
我々の手法は単純だが有効であり、トレーニング可能なパラメータや損失制約を伴わずにネットワークに容易に統合できる。
論文 参考訳(メタデータ) (2023-01-16T14:25:02Z) - What Makes Forest-Based Heterogeneous Treatment Effect Estimators Work? [1.1050303097572156]
両手法がL2損失下で同じパラメータと共起仮定で理解可能であることを示す。
ランダム化環境では、両方のアプローチはベンチマーク研究で新しいブレンドバージョンと同様に実行された。
論文 参考訳(メタデータ) (2022-06-21T12:45:07Z) - Uncertainty Modeling for Out-of-Distribution Generalization [56.957731893992495]
特徴統計を適切に操作することで、ディープラーニングモデルの一般化能力を向上させることができると論じる。
一般的な手法では、特徴統計を学習した特徴から測定された決定論的値とみなすことが多い。
我々は、学習中に合成された特徴統計を用いて、領域シフトの不確かさをモデル化することにより、ネットワークの一般化能力を向上させる。
論文 参考訳(メタデータ) (2022-02-08T16:09:12Z) - Towards Robust Classification with Deep Generative Forests [13.096855747795303]
決定木とランダムフォレストは最も広く使われている機械学習モデルの一つである。
主に識別モデルであるため、予測の不確実性を操作するための原則的な方法が欠けている。
我々はジェネレーティブフォレスト(GeF)を利用してランダムフォレストを特徴空間上の全関節分布を表す生成モデルに拡張する。
論文 参考訳(メタデータ) (2020-07-11T08:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。