論文の概要: Comparing interpretability and explainability for feature selection
- arxiv url: http://arxiv.org/abs/2105.05328v1
- Date: Tue, 11 May 2021 20:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 12:31:54.557228
- Title: Comparing interpretability and explainability for feature selection
- Title(参考訳): 特徴選択における解釈性と説明可能性の比較
- Authors: Jack Dunn, Luca Mingardi, Ying Daisy Zhuo
- Abstract要約: 各種ブラックボックスおよび解釈可能な機械学習手法における特徴選択法としての可変重要度の性能について検討する。
その結果,XGBoost はネイティブ変数重要度法や SHAP によらず,関連する特徴と無関係な特徴を明確に区別することができないことがわかった。
- 参考スコア(独自算出の注目度): 0.6015898117103068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common approach for feature selection is to examine the variable importance
scores for a machine learning model, as a way to understand which features are
the most relevant for making predictions. Given the significance of feature
selection, it is crucial for the calculated importance scores to reflect
reality. Falsely overestimating the importance of irrelevant features can lead
to false discoveries, while underestimating importance of relevant features may
lead us to discard important features, resulting in poor model performance.
Additionally, black-box models like XGBoost provide state-of-the art predictive
performance, but cannot be easily understood by humans, and thus we rely on
variable importance scores or methods for explainability like SHAP to offer
insight into their behavior.
In this paper, we investigate the performance of variable importance as a
feature selection method across various black-box and interpretable machine
learning methods. We compare the ability of CART, Optimal Trees, XGBoost and
SHAP to correctly identify the relevant subset of variables across a number of
experiments. The results show that regardless of whether we use the native
variable importance method or SHAP, XGBoost fails to clearly distinguish
between relevant and irrelevant features. On the other hand, the interpretable
methods are able to correctly and efficiently identify irrelevant features, and
thus offer significantly better performance for feature selection.
- Abstract(参考訳): 特徴選択の一般的なアプローチは、どの特徴が予測に最も関係しているかを理解する方法として、機械学習モデルの変数重要度スコアを調べることである。
特徴選択の重要性を考えると、計算された重要度スコアは現実を反映することが重要である。
無関係な機能の重要性を誤って過小評価することは誤った発見につながるが、関連する機能の重要性を過小評価することで重要な機能を破棄し、結果としてモデルのパフォーマンスが低下する可能性がある。
さらに、XGBoostのようなブラックボックスモデルは、最先端の予測性能を提供するが、人間によって容易に理解できないため、SHAPのような説明可能性に関する様々な重要度スコアや方法に依存している。
本稿では,様々なブラックボックスおよび解釈可能な機械学習手法における特徴選択手法として,変数重要度の性能について検討する。
我々は,cart,optimize tree,xgboost,shap を用いて,変数の関連部分集合を複数の実験で正しく識別する能力を比較した。
その結果,XGBoost はネイティブ変数重要度法や SHAP によらず,関連する特徴と無関係な特徴を明確に区別することができないことがわかった。
一方, 解釈可能な手法は, 無関係な特徴を正しく, 効率的に識別し, 特徴選択のための性能を著しく向上させることができる。
関連論文リスト
- LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Iterative Feature Boosting for Explainable Speech Emotion Recognition [17.568724398229232]
本稿では,効率的な特徴工学手法に基づく新しい教師付きSER手法を提案する。
特徴の関連性を評価し,特徴セットを洗練させるために,結果の説明可能性に特に注意を払っている。
提案手法は,TESSデータセット上での感情認識において,ヒトレベルのパフォーマンス(HLP)および最先端の機械学習手法より優れる。
論文 参考訳(メタデータ) (2024-05-30T15:44:27Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Feature Importance versus Feature Influence and What It Signifies for
Explainable AI [0.0]
特徴の重要性は、最先端のExplainable AIメソッドで使われている機能の影響と混同してはならない。
CIU(Contextual Importance and Utility)メソッドは、グローバルな特徴とローカルな特徴の統一的な定義を提供する。
論文 参考訳(メタデータ) (2023-08-07T13:46:18Z) - Deep Feature Selection Using a Novel Complementary Feature Mask [5.904240881373805]
重要度が低い機能を活用することで、機能選択に対処します。
本稿では,新しい補完機能マスクに基づく特徴選択フレームワークを提案する。
提案手法は汎用的であり,既存のディープラーニングに基づく特徴選択手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2022-09-25T18:03:30Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Can contrastive learning avoid shortcut solutions? [88.249082564465]
暗黙的特徴修正(IFM)は、より広い種類の予測的特徴を捉えるために、対照的なモデルを導くために、正と負のサンプルを変更する方法である。
IFMは特徴抑制を低減し、その結果、視覚および医用画像タスクのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-06-21T16:22:43Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Towards a More Reliable Interpretation of Machine Learning Outputs for
Safety-Critical Systems using Feature Importance Fusion [0.0]
我々は新しい融合距離を導入し、それを最先端技術と比較する。
我々のアプローチは、地上の真実が知られている合成データで検証される。
その結果、我々の機能重要度アンサンブルフレームワークは、既存の方法に比べて、機能重要度エラーが15%少ないことがわかった。
論文 参考訳(メタデータ) (2020-09-11T15:51:52Z) - Nonparametric Feature Impact and Importance [0.6123324869194193]
データ上で直接動作する部分依存曲線から導かれる特徴的影響と重要性の数学的定義を与える。
品質を評価するために、これらの定義によってランク付けされた特徴は、既存の特徴選択技術と競合することを示す。
論文 参考訳(メタデータ) (2020-06-08T17:07:35Z) - Explaining Black Box Predictions and Unveiling Data Artifacts through
Influence Functions [55.660255727031725]
影響関数は、影響力のあるトレーニング例を特定することによって、モデルの判断を説明する。
本稿では,代表課題における影響関数と共通単語順応法の比較を行う。
我々は,学習データ中の成果物を明らかにすることができる影響関数に基づく新しい尺度を開発した。
論文 参考訳(メタデータ) (2020-05-14T00:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。