論文の概要: MDI+: A Flexible Random Forest-Based Feature Importance Framework
- arxiv url: http://arxiv.org/abs/2307.01932v1
- Date: Tue, 4 Jul 2023 21:36:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 15:40:24.316599
- Title: MDI+: A Flexible Random Forest-Based Feature Importance Framework
- Title(参考訳): MDI+: フレキシブルなランダムフォレストベースの特徴重要度フレームワーク
- Authors: Abhineet Agarwal, Ana M. Kenney, Yan Shuo Tan, Tiffany M. Tang, Bin Yu
- Abstract要約: 不純物の平均減少(MDI)は、ランダム森林(RF)の特徴的重要度指標として人気がある。
RFにおける各木の特徴である$X_k$ に対する MDI は、X_k$ で分割された決定切り株の集合に対する応答の線形回帰における非正規化 $R2$ 値と等価であることを示す。
我々は、線形回帰モデルと$R2$メトリックを置き換えるために、MDI+と呼ばれるフレキシブルな機能重要度フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.149859291357858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mean decrease in impurity (MDI) is a popular feature importance measure for
random forests (RFs). We show that the MDI for a feature $X_k$ in each tree in
an RF is equivalent to the unnormalized $R^2$ value in a linear regression of
the response on the collection of decision stumps that split on $X_k$. We use
this interpretation to propose a flexible feature importance framework called
MDI+. Specifically, MDI+ generalizes MDI by allowing the analyst to replace the
linear regression model and $R^2$ metric with regularized generalized linear
models (GLMs) and metrics better suited for the given data structure. Moreover,
MDI+ incorporates additional features to mitigate known biases of decision
trees against additive or smooth models. We further provide guidance on how
practitioners can choose an appropriate GLM and metric based upon the
Predictability, Computability, Stability framework for veridical data science.
Extensive data-inspired simulations show that MDI+ significantly outperforms
popular feature importance measures in identifying signal features. We also
apply MDI+ to two real-world case studies on drug response prediction and
breast cancer subtype classification. We show that MDI+ extracts
well-established predictive genes with significantly greater stability compared
to existing feature importance measures. All code and models are released in a
full-fledged python package on Github.
- Abstract(参考訳): 不純物の平均減少(MDI)は、ランダム森林(RF)にとって重要な特徴である。
RFにおける各木の特徴である$X_k$に対するMDIは、X_k$で分割された決定切り株の集合に対する応答の線形回帰における非正規化$R^2$値と等価であることを示す。
我々はこの解釈を用いて、MDI+と呼ばれるフレキシブルな特徴重視フレームワークを提案する。
具体的には、MDI+は、アナリストが線形回帰モデルと$R^2$メトリックを正規化された一般化線形モデル(GLM)に置き換えることによって、MDIを一般化する。
さらに、MDI+には、決定木の既知のバイアスを加法モデルやスムーズモデルに対して緩和する追加機能が含まれている。
さらに,検証的データサイエンスの予測可能性,計算可能性,安定性フレームワークに基づいて,適切なglmとメトリックを選択する方法のガイダンスを提供する。
広範囲なデータインスパイアされたシミュレーションでは、MDI+は信号の特徴を特定する上で、一般的な特徴の重要性を著しく上回っている。
また,MDI+を薬物反応予測と乳癌サブタイプ分類の2つの実例に適用した。
MDI+は,既存の特徴重要度よりも安定性が著しく高い,確立された予測遺伝子を抽出する。
すべてのコードとモデルは、github上のpythonパッケージでリリースされている。
関連論文リスト
- Is the MMI Criterion Necessary for Interpretability? Degenerating Non-causal Features to Plain Noise for Self-Rationalization [17.26418974819275]
本稿では, 突発的特徴をプレーンノイズとして扱う新しい基準を開発する。
実験により、我々のMDD基準は、近年の競争力のあるMMIの変種と比較して、有理量品質(人間注釈の有理量との重なりによって測定される)を最大10.4%向上させることが示された。
論文 参考訳(メタデータ) (2024-10-08T13:04:02Z) - AdaNPC: Exploring Non-Parametric Classifier for Test-Time Adaptation [64.9230895853942]
ドメインの一般化は、ターゲットのドメイン情報を活用することなく、任意に困難にすることができる。
この問題に対処するためにテスト時適応(TTA)手法が提案されている。
本研究では,テスト時間適応(AdaNPC)を行うためにNon-Parametricを採用する。
論文 参考訳(メタデータ) (2023-04-25T04:23:13Z) - uGLAD: Sparse graph recovery by optimizing deep unrolled networks [11.48281545083889]
深層ネットワークを最適化してスパースグラフ復元を行う新しい手法を提案する。
我々のモデルであるuGLADは、最先端モデルGLADを教師なし設定に構築し、拡張します。
我々は, 遺伝子調節ネットワークから生成した合成ガウスデータ, 非ガウスデータを用いて, モデル解析を行い, 嫌気性消化の事例研究を行った。
論文 参考訳(メタデータ) (2022-05-23T20:20:27Z) - $p$-Generalized Probit Regression and Scalable Maximum Likelihood
Estimation via Sketching and Coresets [74.37849422071206]
本稿では, 2次応答に対する一般化線形モデルである,$p$一般化プロビット回帰モデルについて検討する。
p$の一般化されたプロビット回帰に対する最大可能性推定器は、大容量データ上で$(1+varepsilon)$の係数まで効率的に近似できることを示す。
論文 参考訳(メタデータ) (2022-03-25T10:54:41Z) - From global to local MDI variable importances for random forests and
when they are Shapley values [9.99125500568217]
まず,世界平均不純物量(MDI)の変動重要度スコアが,いくつかの条件下でのシェープリー値と一致することを示す。
我々は、グローバルなMDI尺度と非常に自然な関係を持ち、局所的特徴関連性の新たな概念と結びつく、変数関連性の局所的MDI重要度尺度を導出する。
論文 参考訳(メタデータ) (2021-11-03T13:38:41Z) - Overcoming Catastrophic Forgetting with Gaussian Mixture Replay [79.0660895390689]
ガウス混合モデル(GMM)に基づく連続学習(CL)のためのリハーサルベースアプローチを提案する。
過去のタスクからサンプルを生成し,現在のトレーニングデータと統合することで,破滅的忘れ(cf)を緩和する。
複数の画像データセットでGMRを評価し,クラス別サブタスクに分割する。
論文 参考訳(メタデータ) (2021-04-19T11:41:34Z) - HiPaR: Hierarchical Pattern-aided Regression [71.22664057305572]
HiPaRは、$p Rightarrow y = f(X)$という形式のハイブリッドルールをマイニングします。ここでは、$p$はデータ領域の特性付けであり、$f(X)$は興味ある$y$の変数上の線形回帰モデルです。
HiPaRはパターンマイニング技術を利用して、ターゲット変数が局所線形モデルによって正確に説明できるデータの領域を特定する。
実験が示すように、hipalは既存のパターンベースの回帰法よりも少ないルールをマイニングしながら、最先端の予測性能を実現しています。
論文 参考訳(メタデータ) (2021-02-24T15:53:17Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - Toward a Generalization Metric for Deep Generative Models [18.941388632914666]
深部生成モデル(DGM)の一般化能力の測定は困難である。
評価指標の堅牢性を比較するためのフレームワークを提案する。
我々はジェネレーション潜在変数モデル(GLVM)の複雑さを推定する効率的な方法を開発した。
論文 参考訳(メタデータ) (2020-11-02T05:32:07Z) - Efficient MDI Adaptation for n-gram Language Models [25.67864542036985]
本稿では,n-gram言語モデル適応のための最小識別情報原理に基づく効率的なアルゴリズムを提案する。
n-gramモデルのバックオフ構造と階層的トレーニング手法のアイデアを利用して、MDI適応を各反復における入力に対する線形時間複雑度で計算可能であることを示す。
論文 参考訳(メタデータ) (2020-08-05T22:21:03Z) - Learning to Match Distributions for Domain Adaptation [116.14838935146004]
本稿では,ドメイン間分布マッチングを自動的に学習する学習 to Match (L2M)を提案する。
L2Mは、メタネットワークを用いてデータ駆動方式で分布整合損失を学習することにより、誘導バイアスを低減する。
公開データセットの実験は、SOTA法よりもL2Mの方が優れていることを裏付けている。
論文 参考訳(メタデータ) (2020-07-17T03:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。