論文の概要: Opening the random forest black box by the analysis of the mutual impact
of features
- arxiv url: http://arxiv.org/abs/2304.02490v1
- Date: Wed, 5 Apr 2023 15:03:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 12:13:56.064318
- Title: Opening the random forest black box by the analysis of the mutual impact
of features
- Title(参考訳): 特徴の相互影響分析による無作為な森林ブラックボックスの開放
- Authors: Lucas F. Voges, Lukas C. Jarren, Stephan Seifert
- Abstract要約: ランダム林における特徴の相互影響に着目した2つの新しいアプローチを提案する。
MFIとMIRは、機能と成果の間の複雑な関係に光を当てることを非常に約束しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Random forest is a popular machine learning approach for the analysis of
high-dimensional data because it is flexible and provides variable importance
measures for the selection of relevant features. However, the complex
relationships between the features are usually not considered for the selection
and thus also neglected for the characterization of the analysed samples. Here
we propose two novel approaches that focus on the mutual impact of features in
random forests. Mutual forest impact (MFI) is a relation parameter that
evaluates the mutual association of the featurs to the outcome and, hence, goes
beyond the analysis of correlation coefficients. Mutual impurity reduction
(MIR) is an importance measure that combines this relation parameter with the
importance of the individual features. MIR and MFI are implemented together
with testing procedures that generate p-values for the selection of related and
important features. Applications to various simulated data sets and the
comparison to other methods for feature selection and relation analysis show
that MFI and MIR are very promising to shed light on the complex relationships
between features and outcome. In addition, they are not affected by common
biases, e.g. that features with many possible splits or high minor allele
frequencies are prefered.
- Abstract(参考訳): ランダムフォレスト(random forest)は、フレキシブルであり、関連する特徴の選択に可変の重要性尺度を提供するため、高次元データ分析のための一般的な機械学習アプローチである。
しかし, 特徴間の複雑な関係は選択には考慮されず, 分析試料のキャラクタリゼーションも無視される。
本稿では,ランダム林における特徴の相互影響に着目した2つの新しいアプローチを提案する。
相互森林影響 (MFI) は, 成果との相互関係を評価する関係パラメータであり, 相関係数の解析を超越した関係パラメータである。
相互不純物低減(MIR)は、この関係パラメータと個々の特徴の重要性を組み合わせた重要な尺度である。
MIRとMFIは、関連する重要な特徴の選択のためのp値を生成するテスト手順と共に実装される。
様々なシミュレーションデータセットへの応用と、他の特徴選択および関係解析法との比較により、MFIとMIRは特徴と結果の間の複雑な関係に光を当てることを非常に約束している。
さらに、例えば、多くの可能な分割や高いマイナーな対立頻度を持つ特徴が好まれるなど、共通のバイアスには影響されない。
関連論文リスト
- Challenges in Variable Importance Ranking Under Correlation [6.718144470265263]
本稿では,特徴相関が変数重要度評価に与える影響を総合シミュレーションで検討する。
ノックオフ変数と対応する予測変数の間には相関関係は常に存在しないが、相関関係が予測変数間の特定の相関しきい値を超えて線形に増加することを証明している。
論文 参考訳(メタデータ) (2024-02-05T19:02:13Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - On the Properties and Estimation of Pointwise Mutual Information Profiles [49.877314063833296]
ポイントワイド相互情報プロファイル(ポイントワイド相互情報プロファイル、英: pointwise mutual information profile)は、与えられた確率変数のペアに対するポイントワイド相互情報の分布である。
そこで我々は,モンテカルロ法を用いて分布を正確に推定できる新しい分布系 Bend と Mix Models を導入する。
論文 参考訳(メタデータ) (2023-10-16T10:02:24Z) - A Notion of Feature Importance by Decorrelation and Detection of Trends
by Random Forest Regression [1.675857332621569]
本稿では,よく研究されたGram-Schmidt decorrelation法に基づく特徴重要度の概念を導入する。
本研究では,ランダムな森林回帰を用いてデータ中の傾向を推定する2つの推定手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T11:01:49Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - Decorrelate Irrelevant, Purify Relevant: Overcome Textual Spurious
Correlations from a Feature Perspective [47.10907370311025]
自然言語理解(NLU)モデルは、散発的な相関(すなわちデータセットバイアス)に頼る傾向があり、分布内データセットでは高い性能を得るが、分布外データセットでは性能が劣る。
既存のデバイアス法のほとんどは、バイアスのある特徴を持つサンプルを識別し、弱めていることが多い。
サンプルの重み付けは、サンプルの偏りのない部分から学習する際のモデルを妨げる。
本稿では,特徴空間の観点から,微粒な方法でスプリアス相関を除去することを提案する。
論文 参考訳(メタデータ) (2022-02-16T13:23:14Z) - Evaluating Sensitivity to the Stick-Breaking Prior in Bayesian
Nonparametrics [85.31247588089686]
変分ベイズ法はベイズモデルのパラメトリック的および非パラメトリック的側面に対して感性が得られることを示す。
ベイズ感度分析に対する変動的アプローチの理論的および経験的支援を提供する。
論文 参考訳(メタデータ) (2021-07-08T03:40:18Z) - Factorization Machines with Regularization for Sparse Feature
Interactions [13.593781209611112]
因子化マシン(英: Factorization Machine、FM)は、二階特徴相互作用に基づく機械学習の予測モデルである。
FMにおける特徴間相互作用選択のための新しい正規化方式を提案する。
機能間相互作用の選択のために,提案する正則化器は,既存手法が課すスパーシティパターンに制約を加えることなく,特徴間相互作用行列をスパース化する。
論文 参考訳(メタデータ) (2020-10-19T05:00:40Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z) - TCMI: a non-parametric mutual-dependence estimator for multivariate
continuous distributions [0.0]
総累積相互情報(TCMI)は相互依存の関連性の尺度である。
TCMIは、特徴集合の比較とランキングを容易にする非パラメトリックで堅牢で決定論的尺度である。
論文 参考訳(メタデータ) (2020-01-30T08:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。