論文の概要: Interpretable feature subset selection: A Shapley value based approach
- arxiv url: http://arxiv.org/abs/2001.03956v3
- Date: Sun, 25 Apr 2021 19:24:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 04:31:57.774601
- Title: Interpretable feature subset selection: A Shapley value based approach
- Title(参考訳): 解釈可能な機能サブセットの選択:shapley値に基づくアプローチ
- Authors: Sandhya Tripathi, N. Hemachandra, Prashant Trivedi
- Abstract要約: プレイヤーとしての特徴とヒンジロスに基づく特徴関数を持つ協調ゲームである分類ゲームの概念を導入する。
我々の主な貢献は、任意のデータセットに対して、SVEA値のしきい値0がラベル予測のための共同相互作用が重要である特徴サブセットを特定することを示すことである($star$)。
- 参考スコア(独自算出の注目度): 1.511944009967492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For feature selection and related problems, we introduce the notion of
classification game, a cooperative game, with features as players and hinge
loss based characteristic function and relate a feature's contribution to
Shapley value based error apportioning (SVEA) of total training error. Our
major contribution is ($\star$) to show that for any dataset the threshold 0 on
SVEA value identifies feature subset whose joint interactions for label
prediction is significant or those features that span a subspace where the data
is predominantly lying. In addition, our scheme ($\star$) identifies the
features on which Bayes classifier doesn't depend but any surrogate loss
function based finite sample classifier does; this contributes to the excess
$0$-$1$ risk of such a classifier, ($\star$) estimates unknown true hinge risk
of a feature, and ($\star$) relate the stability property of an allocation and
negative valued SVEA by designing the analogue of core of classification game.
Due to Shapley value's computationally expensive nature, we build on a known
Monte Carlo based approximation algorithm that computes characteristic function
(Linear Programs) only when needed. We address the potential sample bias
problem in feature selection by providing interval estimates for SVEA values
obtained from multiple sub-samples. We illustrate all the above aspects on
various synthetic and real datasets and show that our scheme achieves better
results than existing recursive feature elimination technique and ReliefF in
most cases. Our theoretically grounded classification game in terms of well
defined characteristic function offers interpretability (which we formalize in
terms of final task) and explainability of our framework, including
identification of important features.
- Abstract(参考訳): 特徴選択と関連する問題に対して,プレイヤーとしての機能とヒンジロスに基づく特徴関数を備えた協調ゲームという分類ゲームの概念を導入し,全トレーニングエラーのShapley値に基づく誤差評価(SVEA)に対する特徴の寄与を関連づける。
我々の主な貢献は、任意のデータセットに対して、SVEA値のしきい値0がラベル予測のための結合相互作用が重要である機能サブセット、またはデータが主に嘘をついている部分空間にまたがる特徴を識別することを示すことである。
加えて、我々のスキーム(\star$)は、ベイズ分類器が依存しない特徴を、サーロゲート損失関数ベースの有限サンプル分類器によって識別する;これは、そのような分類器のリスクが0〜1ドルの超過に寄与する;(\star$)は、特徴の未知のヒンジリスクを推定し、(\star$)は分類ゲームのコアの類似性を設計することによって、割り当てと負の価値を持つsveaの安定性特性を関連付ける。
Shapley値の計算コストの性質のため、モンテカルロをベースとした近似アルゴリズムを構築し、特性関数(Linear Programs)を必要なときにのみ計算する。
複数のサブサンプルから得られたSVEA値の間隔推定を提供することにより,特徴選択における潜在的なサンプルバイアス問題に対処する。
本稿では, 様々な合成および実データについて, 既存の再帰的特徴除去手法やReliefFよりも優れた結果が得られることを示す。
理論上は, 特徴関数の観点からの分類ゲームは, 重要な特徴の同定を含む, フレームワークの解釈可能性(最終課題の観点から形式化)と説明可能性を提供する。
関連論文リスト
- Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Variational Shapley Network: A Probabilistic Approach to Self-Explaining
Shapley values with Uncertainty Quantification [2.6699011287124366]
シェープ価値は、モデル決定プロセスの解明のための機械学習(ML)の基礎ツールとして現れている。
本稿では,Shapley値の計算を大幅に単純化し,単一のフォワードパスしか必要としない,新しい自己説明手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T18:09:05Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - DU-Shapley: A Shapley Value Proxy for Efficient Dataset Valuation [23.646508094051768]
我々は、データセットのバリュエーションの問題、すなわち、インクリメンタルゲインを定量化する問題を考える。
Shapleyの値は、その正式な公理的正当化のためにデータセットのバリュエーションを実行する自然なツールである。
本稿では,離散一様分布下での予測として表現される離散一様シャプリーと呼ばれる新しい近似を提案する。
論文 参考訳(メタデータ) (2023-06-03T10:22:50Z) - Robust Outlier Rejection for 3D Registration with Variational Bayes [70.98659381852787]
我々は、ロバストアライメントのための新しい変分非局所ネットワークベース外乱除去フレームワークを開発した。
そこで本稿では, 投票に基づく不整合探索手法を提案し, 変換推定のための高品質な仮説的不整合をクラスタリングする。
論文 参考訳(メタデータ) (2023-04-04T03:48:56Z) - CS-Shapley: Class-wise Shapley Values for Data Valuation in
Classification [24.44357623723746]
CS-Shapleyは,トレーニングインスタンスのクラス内コントリビューションとクラス外コントリビューションを区別する新しい値関数である。
我々の結果は、Shapleyベースのデータバリュエーションは、異なるモデルにわたるアプリケーションに転送可能であることを示唆している。
論文 参考訳(メタデータ) (2022-11-13T03:32:33Z) - Adaptive LASSO estimation for functional hidden dynamic geostatistical
model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。
このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文 参考訳(メタデータ) (2022-08-10T19:17:45Z) - Parallel feature selection based on the trace ratio criterion [4.30274561163157]
本研究は,PFSTを用いた並列特徴選択という,新しい並列特徴選択手法を提案する。
提案手法は,Fisher's Discriminant Analysisで用いられるクラス分離性の尺度であるトレース基準を用いて特徴的有用性を評価する。
実験により,本手法は,比較対象の他の手法による時間的差のごく一部で,少数の特徴セットを生成できることが確認された。
論文 参考訳(メタデータ) (2022-03-03T10:50:33Z) - Feature Selection Using Reinforcement Learning [0.0]
特定の関心の予測因子を特徴付けるために使用できる変数や特徴の空間は指数関数的に増大し続けている。
モデルのバイアスを損なうことなく分散を最小化する最も特徴的な特徴を特定することは、マシンラーニングモデルのトレーニングを成功させる上で非常に重要です。
論文 参考訳(メタデータ) (2021-01-23T09:24:37Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z) - Infinite Feature Selection: A Graph-based Feature Filtering Approach [78.63188057505012]
グラフ内の経路として特徴のサブセットを考慮したフィルタリング機能選択フレームワークを提案する。
無限に進むことで、選択プロセスの計算複雑性を制限できる。
Inf-FSはほとんどどんな状況でも、つまり、保持するフィーチャの数が優先順位に固定されているときに、より良く振る舞うことを示す。
論文 参考訳(メタデータ) (2020-06-15T07:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。