論文の概要: Shap-Select: Lightweight Feature Selection Using SHAP Values and Regression
- arxiv url: http://arxiv.org/abs/2410.06815v1
- Date: Wed, 9 Oct 2024 12:14:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 03:30:47.210943
- Title: Shap-Select: Lightweight Feature Selection Using SHAP Values and Regression
- Title(参考訳): Shap-Select:SHAP値と回帰を用いた軽量特徴選択
- Authors: Egor Kraev, Baran Koseoglu, Luca Traverso, Mohammed Topiwalla,
- Abstract要約: 本稿では,新しい特徴選択フレームワーク,shap-selectを提案する。
フレームワークは、特徴のShapley値、検証セットに基づいてターゲットの線形的あるいはロジスティックな回帰を行い、回帰係数の符号と重要度を用いて特徴選択の効率的な実装を行う。
筆者らは、Kaggleクレジットカード詐欺データセットのシェープ選択を評価し、確立された方法と比較して、その有効性を実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature selection is an essential process in machine learning, especially when dealing with high-dimensional datasets. It helps reduce the complexity of machine learning models, improve performance, mitigate overfitting, and decrease computation time. This paper presents a novel feature selection framework, shap-select. The framework conducts a linear or logistic regression of the target on the Shapley values of the features, on the validation set, and uses the signs and significance levels of the regression coefficients to implement an efficient heuristic for feature selection in tabular regression and classification tasks. We evaluate shap-select on the Kaggle credit card fraud dataset, demonstrating its effectiveness compared to established methods such as Recursive Feature Elimination (RFE), HISEL (a mutual information-based feature selection method), Boruta and a simpler Shapley value-based method. Our findings show that shap-select combines interpretability, computational efficiency, and performance, offering a robust solution for feature selection.
- Abstract(参考訳): 特徴選択は、特に高次元データセットを扱う場合、機械学習において不可欠なプロセスである。
機械学習モデルの複雑さを減らし、パフォーマンスを改善し、オーバーフィッティングを軽減し、計算時間を短縮する。
本稿では,新しい特徴選択フレームワーク,shap-selectを提案する。
このフレームワークは、特徴のシェープリー値に基づいて目標の線形的あるいはロジスティック回帰を行い、回帰係数の符号と重要性レベルを用いて、表の回帰と分類タスクにおける特徴選択のための効率的なヒューリスティックを実現する。
我々は,Kaggleクレジットカード詐欺データセットのシェープ選択を評価し,再帰的特徴除去(RFE)やHISEL(相互情報に基づく特徴選択),ボルタ,より単純なShapley値ベース手法などの確立した手法と比較して,その有効性を実証した。
以上の結果から,シェープ選択は解釈可能性,計算効率,性能を両立させ,特徴選択のための堅牢なソリューションを提供することがわかった。
関連論文リスト
- Feature Selection as Deep Sequential Generative Learning [50.00973409680637]
本研究では, 逐次再構成, 変分, 性能評価器の損失を伴って, 深部変分変圧器モデルを構築した。
提案モデルでは,特徴選択の知識を抽出し,連続的な埋め込み空間を学習し,特徴選択決定シーケンスをユーティリティスコアに関連付けられた埋め込みベクトルにマッピングする。
論文 参考訳(メタデータ) (2024-03-06T16:31:56Z) - LLpowershap: Logistic Loss-based Automated Shapley Values Feature
Selection Method [0.0]
損失に基づくShapley値を用いて最小ノイズで情報的特徴を識別する新しい特徴選択手法LLpowershapを提案する。
シミュレーションの結果,LLpowershapはより多くの情報特徴を識別するだけでなく,他の最先端特徴選択法と比較して,ノイズ特性の少ない特徴を出力することがわかった。
論文 参考訳(メタデータ) (2024-01-23T11:46:52Z) - A Contrast Based Feature Selection Algorithm for High-dimensional Data
set in Machine Learning [9.596923373834093]
本稿では,異なるクラス間で示される相違点に基づいて識別的特徴を抽出する新しいフィルタ特徴選択手法であるContrastFSを提案する。
提案手法の有効性と有効性について検証し,提案手法が無視可能な計算で良好に動作することを示す。
論文 参考訳(メタデータ) (2024-01-15T05:32:35Z) - A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Parallel feature selection based on the trace ratio criterion [4.30274561163157]
本研究は,PFSTを用いた並列特徴選択という,新しい並列特徴選択手法を提案する。
提案手法は,Fisher's Discriminant Analysisで用いられるクラス分離性の尺度であるトレース基準を用いて特徴的有用性を評価する。
実験により,本手法は,比較対象の他の手法による時間的差のごく一部で,少数の特徴セットを生成できることが確認された。
論文 参考訳(メタデータ) (2022-03-03T10:50:33Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Feature Selection Using Reinforcement Learning [0.0]
特定の関心の予測因子を特徴付けるために使用できる変数や特徴の空間は指数関数的に増大し続けている。
モデルのバイアスを損なうことなく分散を最小化する最も特徴的な特徴を特定することは、マシンラーニングモデルのトレーニングを成功させる上で非常に重要です。
論文 参考訳(メタデータ) (2021-01-23T09:24:37Z) - On the Adversarial Robustness of LASSO Based Feature Selection [72.54211869067979]
検討されたモデルでは、悪意のある敵がデータセット全体を観察し、レスポンス値やフィーチャーマトリックスを慎重に修正する。
両レベルの最適化問題として、敵の修正戦略を定式化する。
合成および実データを用いた数値的な例は,本手法が効率的かつ効果的であることを示している。
論文 参考訳(メタデータ) (2020-10-20T05:51:26Z) - Joint Adaptive Graph and Structured Sparsity Regularization for
Unsupervised Feature Selection [6.41804410246642]
本稿では,共同適応グラフと構造付き空間正規化unsupervised feature selection (JASFS)法を提案する。
最適な機能のサブセットがグループで選択され、選択された機能の数が自動的に決定される。
8つのベンチマーク実験の結果,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2020-10-09T08:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。