論文の概要: A Notion of Feature Importance by Decorrelation and Detection of Trends
by Random Forest Regression
- arxiv url: http://arxiv.org/abs/2303.01156v1
- Date: Thu, 2 Mar 2023 11:01:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 14:57:26.541564
- Title: A Notion of Feature Importance by Decorrelation and Detection of Trends
by Random Forest Regression
- Title(参考訳): 非相関による特徴量の概念とランダムな森林回帰による傾向の検出
- Authors: Yannick Gerstorfer, Lena Krieg, Max Hahn-Klimroth
- Abstract要約: 本稿では,よく研究されたGram-Schmidt decorrelation法に基づく特徴重要度の概念を導入する。
本研究では,ランダムな森林回帰を用いてデータ中の傾向を推定する2つの推定手法を提案する。
- 参考スコア(独自算出の注目度): 1.675857332621569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many studies, we want to determine the influence of certain features on a
dependent variable. More specifically, we are interested in the strength of the
influence -- i.e., is the feature relevant? -- and, if so, how the feature
influences the dependent variable. Recently, data-driven approaches such as
\emph{random forest regression} have found their way into applications
(Boulesteix et al., 2012). These models allow to directly derive measures of
feature importance, which are a natural indicator of the strength of the
influence. For the relevant features, the correlation or rank correlation
between the feature and the dependent variable has typically been used to
determine the nature of the influence. More recent methods, some of which can
also measure interactions between features, are based on a modeling approach.
In particular, when machine learning models are used, SHAP scores are a recent
and prominent method to determine these trends (Lundberg et al., 2017).
In this paper, we introduce a novel notion of feature importance based on the
well-studied Gram-Schmidt decorrelation method. Furthermore, we propose two
estimators for identifying trends in the data using random forest regression,
the so-called absolute and relative transversal rate. We empirically compare
the properties of our estimators with those of well-established estimators on a
variety of synthetic and real-world datasets.
- Abstract(参考訳): 多くの研究において、依存変数に対する特定の特徴の影響を判定したい。
より具体的に言うと、私たちは影響の強さ、すなわち、その特徴は関連しているのか、そしてもしその機能が依存変数にどのように影響するかに興味を持っています。
近年、データ駆動型アプローチである 'emph{random forest regression} が応用分野に進出している(Boulesteix et al., 2012)。
これらのモデルは、影響の強さの自然な指標である特徴の重要性の尺度を直接導出することができる。
関連する特徴について、特徴と従属変数の相関関係やランク相関は、典型的には影響の性質を決定するために用いられる。
より最近の手法では、機能間の相互作用を測定できるものもあり、モデリングアプローチに基づいている。
特に、機械学習モデルを使用する場合、SHAPスコアはこれらのトレンドを決定するための最新かつ顕著な方法である(Lundberg et al., 2017)。
本稿では,よく研究されたGram-Schmidt decorrelation法に基づく特徴重要度の概念を提案する。
さらに,無作為な森林回帰を用いてデータの傾向を推定するための2つの推定器を提案する。
我々は,様々な合成および実世界のデータセット上のよく確立された推定器の特性を実証的に比較した。
関連論文リスト
- Challenges in Variable Importance Ranking Under Correlation [6.718144470265263]
本稿では,特徴相関が変数重要度評価に与える影響を総合シミュレーションで検討する。
ノックオフ変数と対応する予測変数の間には相関関係は常に存在しないが、相関関係が予測変数間の特定の相関しきい値を超えて線形に増加することを証明している。
論文 参考訳(メタデータ) (2024-02-05T19:02:13Z) - Nonparametric Partial Disentanglement via Mechanism Sparsity: Sparse
Actions, Interventions and Sparse Temporal Dependencies [58.179981892921056]
この研究は、メカニズムのスパーシティ正則化(英語版)と呼ばれる、アンタングルメントの新たな原理を導入する。
本稿では,潜在要因を同時に学習することで,絡み合いを誘発する表現学習手法を提案する。
学習した因果グラフをスパースに規則化することにより、潜伏因子を復元できることを示す。
論文 参考訳(メタデータ) (2024-01-10T02:38:21Z) - Identifiable Latent Polynomial Causal Models Through the Lens of Change [82.14087963690561]
因果表現学習は、観測された低レベルデータから潜在的な高レベル因果表現を明らかにすることを目的としている。
主な課題の1つは、識別可能性(identifiability)として知られるこれらの潜伏因果モデルを特定する信頼性の高い保証を提供することである。
論文 参考訳(メタデータ) (2023-10-24T07:46:10Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Opening the random forest black box by the analysis of the mutual impact
of features [0.0]
ランダム林における特徴の相互影響に着目した2つの新しいアプローチを提案する。
MFIとMIRは、機能と成果の間の複雑な関係に光を当てることを非常に約束しています。
論文 参考訳(メタデータ) (2023-04-05T15:03:46Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - Triplot: model agnostic measures and visualisations for variable
importance in predictive models that take into account the hierarchical
correlation structure [3.0036519884678894]
変数間の相関に関する情報を利用してモデル解析を支援する新しい手法を提案する。
ユーザが提案した変数群(アスペクト)と、自動的に決定される変数群(アスペクト)を解析する方法を紹介します。
また,可変グルーピングの階層構造を利用して高情報密度モデル可視化を行うtriplotという新しいタイプのモデル可視化手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T21:29:03Z) - Estimating Causal Effects with the Neural Autoregressive Density
Estimator [6.59529078336196]
我々は、Pearlのdo-calculusフレームワーク内の因果効果を推定するために、神経自己回帰密度推定器を使用する。
本手法は,変数間の相互作用を明示的にモデル化することなく,非線形システムから因果効果を抽出できることを示す。
論文 参考訳(メタデータ) (2020-08-17T13:12:38Z) - On Disentangled Representations Learned From Correlated Data [59.41587388303554]
相関データに対する最も顕著な絡み合うアプローチの挙動を解析することにより、現実のシナリオにギャップを埋める。
本研究では,データセットの体系的相関が学習され,潜在表現に反映されていることを示す。
また、トレーニング中の弱い監督や、少数のラベルで事前訓練されたモデルを修正することで、これらの潜伏相関を解消する方法を実証する。
論文 参考訳(メタデータ) (2020-06-14T12:47:34Z) - Nonparametric Feature Impact and Importance [0.6123324869194193]
データ上で直接動作する部分依存曲線から導かれる特徴的影響と重要性の数学的定義を与える。
品質を評価するために、これらの定義によってランク付けされた特徴は、既存の特徴選択技術と競合することを示す。
論文 参考訳(メタデータ) (2020-06-08T17:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。