論文の概要: Challenges in Variable Importance Ranking Under Correlation
- arxiv url: http://arxiv.org/abs/2402.03447v1
- Date: Mon, 5 Feb 2024 19:02:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 18:09:25.897095
- Title: Challenges in Variable Importance Ranking Under Correlation
- Title(参考訳): 相関下における可変重要度ランキングの課題
- Authors: Annie Liang and Thomas Jemielita and Andy Liaw and Vladimir Svetnik
and Lingkang Huang and Richard Baumgartner and Jason M. Klusowski
- Abstract要約: 本稿では,特徴相関が変数重要度評価に与える影響を総合シミュレーションで検討する。
ノックオフ変数と対応する予測変数の間には相関関係は常に存在しないが、相関関係が予測変数間の特定の相関しきい値を超えて線形に増加することを証明している。
- 参考スコア(独自算出の注目度): 6.718144470265263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Variable importance plays a pivotal role in interpretable machine learning as
it helps measure the impact of factors on the output of the prediction model.
Model agnostic methods based on the generation of "null" features via
permutation (or related approaches) can be applied. Such analysis is often
utilized in pharmaceutical applications due to its ability to interpret
black-box models, including tree-based ensembles. A major challenge and
significant confounder in variable importance estimation however is the
presence of between-feature correlation. Recently, several adjustments to
marginal permutation utilizing feature knockoffs were proposed to address this
issue, such as the variable importance measure known as conditional predictive
impact (CPI). Assessment and evaluation of such approaches is the focus of our
work. We first present a comprehensive simulation study investigating the
impact of feature correlation on the assessment of variable importance. We then
theoretically prove the limitation that highly correlated features pose for the
CPI through the knockoff construction. While we expect that there is always no
correlation between knockoff variables and its corresponding predictor
variables, we prove that the correlation increases linearly beyond a certain
correlation threshold between the predictor variables. Our findings emphasize
the absence of free lunch when dealing with high feature correlation, as well
as the necessity of understanding the utility and limitations behind methods in
variable importance estimation.
- Abstract(参考訳): 可変重要性は、予測モデルの出力に対する因子の影響を測定するのに役立つため、解釈可能な機械学習において重要な役割を果たす。
置換(または関連するアプローチ)による"null"機能の生成に基づくモデル非依存メソッドを適用することができる。
このような分析は、木に基づくアンサンブルを含むブラックボックスモデルを解釈できるため、医薬品の用途でよく用いられる。
しかし、変数重要度推定における大きな課題と重要な共同創設者は、機能間相関の存在である。
近年, 条件付き予測影響 (CPI) と呼ばれる変動重要度尺度など, 特徴ノックオフを利用した限界変量の調整が提案されている。
このようなアプローチの評価と評価が私たちの研究の焦点です。
まず,可変重要度評価における特徴相関の影響を包括的シミュレーションにより検討する。
次に,高い相関性を持つ特徴がノックオフ構成によってCPIに作用する限界を理論的に証明する。
我々は、常にノックオフ変数とその対応する予測変数の間に相関が存在しないことを期待するが、相関が予測変数間の特定の相関しきい値を超えて線形に増加することを証明している。
本研究は,高機能相関を扱う場合のフリーランチの欠如と,変数重要度推定における手法の背後にある有用性と限界を理解する必要性を強調する。
関連論文リスト
- Identifiable Latent Polynomial Causal Models Through the Lens of Change [85.67870425656368]
因果表現学習は、観測された低レベルデータから潜在的な高レベル因果表現を明らかにすることを目的としている。
主な課題の1つは、識別可能性(identifiability)として知られるこれらの潜伏因果モデルを特定する信頼性の高い保証を提供することである。
論文 参考訳(メタデータ) (2023-10-24T07:46:10Z) - A Notion of Feature Importance by Decorrelation and Detection of Trends
by Random Forest Regression [1.675857332621569]
本稿では,よく研究されたGram-Schmidt decorrelation法に基づく特徴重要度の概念を導入する。
本研究では,ランダムな森林回帰を用いてデータ中の傾向を推定する2つの推定手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T11:01:49Z) - Weight-variant Latent Causal Models [79.79711624326299]
因果表現学習は、低レベルの観測の背後にある潜伏した高レベルの因果変数を明らかにする。
本研究では,潜伏因果変数の同定に焦点をあてる。
推移性は潜伏因果変数の識別性を著しく阻害することを示す。
本稿では,潜時因果変数を直接学習する構造式caUsAl変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2022-08-30T11:12:59Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - Decorrelated Variable Importance [0.0]
LOCOの修正版を定義し,相関効果を緩和する手法を提案する。
このパラメータは非パラメトリック推定が難しいが,半パラメトリックモデルを用いて推定する方法を示す。
論文 参考訳(メタデータ) (2021-11-21T16:31:36Z) - Decoding Causality by Fictitious VAR Modeling [0.0]
まず, 虚ベクトル自己回帰モデルを用いて, 因果関係の平衡を設定した。
平衡において、長期の関係はノイズから特定され、突発関係は無視的に0に近い。
また、気候変動に対する因果要因の寄与を推定するためのアプローチも適用する。
論文 参考訳(メタデータ) (2021-11-14T22:43:02Z) - Variational Causal Networks: Approximate Bayesian Inference over Causal
Structures [132.74509389517203]
離散DAG空間上の自己回帰分布をモデル化したパラメトリック変分族を導入する。
実験では,提案した変分後部が真の後部を良好に近似できることを示した。
論文 参考訳(メタデータ) (2021-06-14T17:52:49Z) - Latent Causal Invariant Model [128.7508609492542]
現在の教師付き学習は、データ適合プロセス中に急激な相関を学習することができる。
因果予測を求める潜在因果不変モデル(LaCIM)を提案する。
論文 参考訳(メタデータ) (2020-11-04T10:00:27Z) - Estimating Causal Effects with the Neural Autoregressive Density
Estimator [6.59529078336196]
我々は、Pearlのdo-calculusフレームワーク内の因果効果を推定するために、神経自己回帰密度推定器を使用する。
本手法は,変数間の相互作用を明示的にモデル化することなく,非線形システムから因果効果を抽出できることを示す。
論文 参考訳(メタデータ) (2020-08-17T13:12:38Z) - On Disentangled Representations Learned From Correlated Data [59.41587388303554]
相関データに対する最も顕著な絡み合うアプローチの挙動を解析することにより、現実のシナリオにギャップを埋める。
本研究では,データセットの体系的相関が学習され,潜在表現に反映されていることを示す。
また、トレーニング中の弱い監督や、少数のラベルで事前訓練されたモデルを修正することで、これらの潜伏相関を解消する方法を実証する。
論文 参考訳(メタデータ) (2020-06-14T12:47:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。