論文の概要: Trees, forests, and impurity-based variable importance
- arxiv url: http://arxiv.org/abs/2001.04295v3
- Date: Fri, 24 Dec 2021 08:05:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 23:52:24.411786
- Title: Trees, forests, and impurity-based variable importance
- Title(参考訳): 木、森、そして不純物に基づく変数の重要性
- Authors: Erwan Scornet (CMAP)
- Abstract要約: MDI(Mean Decrease Impurity)という2つのよく知られたランダムな森林変動の重要度を分析した。
入力変数が独立であり、相互作用がない場合、MDIは出力の分散分解を提供する。
分析の結果,単木に比べて森林の利用にはいくつかの利点がある可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tree ensemble methods such as random forests [Breiman, 2001] are very popular
to handle high-dimensional tabular data sets, notably because of their good
predictive accuracy. However, when machine learning is used for decision-making
problems, settling for the best predictive procedures may not be reasonable
since enlightened decisions require an in-depth comprehension of the algorithm
prediction process. Unfortunately, random forests are not intrinsically
interpretable since their prediction results from averaging several hundreds of
decision trees. A classic approach to gain knowledge on this so-called
black-box algorithm is to compute variable importances, that are employed to
assess the predictive impact of each input variable. Variable importances are
then used to rank or select variables and thus play a great role in data
analysis. Nevertheless, there is no justification to use random forest variable
importances in such way: we do not even know what these quantities estimate. In
this paper, we analyze one of the two well-known random forest variable
importances, the Mean Decrease Impurity (MDI). We prove that if input variables
are independent and in absence of interactions, MDI provides a variance
decomposition of the output, where the contribution of each variable is clearly
identified. We also study models exhibiting dependence between input variables
or interaction, for which the variable importance is intrinsically ill-defined.
Our analysis shows that there may exist some benefits to use a forest compared
to a single tree.
- Abstract(参考訳): ランダムフォレスト(breiman, 2001])のようなツリーアンサンブル手法は、高い次元の表データを扱うのに非常に人気がある。
しかし、機械学習が意思決定問題に使用される場合、アルゴリズム予測プロセスの深い理解を必要とするため、最良の予測手順の解決は合理的ではないかもしれない。
不幸なことに、ランダムな森林は数百の決定木を平均して予測した結果、本質的に解釈できない。
このいわゆるブラックボックスアルゴリズムの知識を得る古典的なアプローチは、各入力変数の予測的影響を評価するために使用される変数の重要性を計算することである。
可変重要度は変数のランク付けや選択に使用され、データ分析において大きな役割を果たす。
それにもかかわらず、そのような方法でランダムな森林変数の重要さを使うのは正当化されていない。
本稿では,2つのよく知られたランダムな森林変動の重要性である平均減少不純物(MDI)を分析する。
入力変数が独立で相互作用がない場合、MDIは各変数の寄与が明確に識別される出力の分散分解を提供する。
また,入力変数や相互作用の依存性を示すモデルについても検討した。
分析の結果,単木に比べて森林の利用にメリットがある可能性が示唆された。
関連論文リスト
- Why do Random Forests Work? Understanding Tree Ensembles as
Self-Regularizing Adaptive Smoothers [68.76846801719095]
統計学で広く普及している偏りと分散還元に対する現在の高次二分法は、木のアンサンブルを理解するには不十分である、と我々は主張する。
森林は、通常暗黙的に絡み合っている3つの異なるメカニズムによって、樹木を改良できることを示す。
論文 参考訳(メタデータ) (2024-02-02T15:36:43Z) - MMD-based Variable Importance for Distributional Random Forest [5.0459880125089]
分布ランダムフォレスト(DRF)における変数重要度アルゴリズムを提案する。
導入された重要度尺度は一貫性があり、実データと模擬データの両方で高い経験的性能を示し、競合より優れていることを示す。
論文 参考訳(メタデータ) (2023-10-18T17:12:29Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Posterior Collapse and Latent Variable Non-identifiability [54.842098835445]
柔軟性を犠牲にすることなく識別性を強制する深層生成モデルである,潜時同定可能な変分オートエンコーダのクラスを提案する。
合成および実データ全体にわたって、潜在識別可能な変分オートエンコーダは、後方崩壊を緩和し、データの有意義な表現を提供する既存の方法より優れている。
論文 参考訳(メタデータ) (2023-01-02T06:16:56Z) - MURAL: An Unsupervised Random Forest-Based Embedding for Electronic
Health Record Data [59.26381272149325]
異なる変数型でデータを表現するための教師なしランダムフォレストを提案する。
muraL forestsは、ノード分割変数がランダムに選択される一連の決定ツリーで構成されている。
提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。
論文 参考訳(メタデータ) (2021-11-19T22:02:21Z) - Trading Complexity for Sparsity in Random Forest Explanations [20.87501058448681]
決定木の厳格な多数を占める主要な要因である主な理由を紹介する。
さまざまなデータセットで実施された実験は、ランタイムの複雑さとスパシティのトレードオフの存在を明らかにしている。
論文 参考訳(メタデータ) (2021-08-11T15:19:46Z) - Counterfactual Invariance to Spurious Correlations: Why and How to Pass
Stress Tests [87.60900567941428]
素早い相関」とは、アナリストが重要とすべきでないと考える入力データのある側面に対するモデルの依存である。
機械学習では、これらにはノウ・イ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ」という特徴がある。
因果推論ツールを用いたストレステストについて検討した。
論文 参考訳(メタデータ) (2021-05-31T14:39:38Z) - Achieving Reliable Causal Inference with Data-Mined Variables: A Random
Forest Approach to the Measurement Error Problem [1.5749416770494704]
一般的な実証的戦略は、利用可能なデータから関心のある変数を'マイニング'する予測モデリング手法の適用を含む。
最近の研究は、機械学習モデルからの予測は必然的に不完全であるため、予測変数に基づく計量分析は測定誤差によるバイアスに悩まされる可能性が高いことを強調している。
ランダムフォレストと呼ばれるアンサンブル学習技術を用いて,これらのバイアスを軽減する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-12-19T21:48:23Z) - Stable Prediction via Leveraging Seed Variable [73.9770220107874]
従来の機械学習手法は、非因果変数によって誘導されるトレーニングデータにおいて、微妙に刺激的な相関を利用して予測する。
本研究では, 条件付き独立性テストに基づくアルゴリズムを提案し, 種子変数を先行変数とする因果変数を分離し, 安定な予測に採用する。
我々のアルゴリズムは、安定した予測のための最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-06-09T06:56:31Z) - Fr\'echet random forests for metric space valued regression with non
euclidean predictors [0.0]
我々はFr'echet木とFr'echetランダムフォレストを導入し、入力変数と出力変数が一般的な距離空間で値を取るデータを処理する。
データ駆動分割を用いたFr'echet回帰図予測器の一貫性定理をFr'echetの純粋にランダムな木に適用する。
論文 参考訳(メタデータ) (2019-06-04T22:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。