論文の概要: How to safely discard features based on aggregate SHAP values
- arxiv url: http://arxiv.org/abs/2503.23111v1
- Date: Sat, 29 Mar 2025 15:07:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:39:55.241810
- Title: How to safely discard features based on aggregate SHAP values
- Title(参考訳): 集合SHAP値に基づく安全な特徴の破棄方法
- Authors: Robi Bhattacharjee, Karolin Frohnapfel, Ulrike von Luxburg,
- Abstract要約: 近年、SHAPはグローバルな洞察に利用されてきている。
小さい集合SHAP値が必ずしも対応する特徴が機能に影響を与えないことを示すかどうかを問う。
SHAP値が小さいことは,対応する機能を安全に破棄できることを示唆している。
- 参考スコア(独自算出の注目度): 12.610250597173437
- License:
- Abstract: SHAP is one of the most popular local feature-attribution methods. Given a function f and an input x, it quantifies each feature's contribution to f(x). Recently, SHAP has been increasingly used for global insights: practitioners average the absolute SHAP values over many data points to compute global feature importance scores, which are then used to discard unimportant features. In this work, we investigate the soundness of this practice by asking whether small aggregate SHAP values necessarily imply that the corresponding feature does not affect the function. Unfortunately, the answer is no: even if the i-th SHAP value is 0 on the entire data support, there exist functions that clearly depend on Feature i. The issue is that computing SHAP values involves evaluating f on points outside of the data support, where f can be strategically designed to mask its dependence on Feature i. To address this, we propose to aggregate SHAP values over the extended support, which is the product of the marginals of the underlying distribution. With this modification, we show that a small aggregate SHAP value implies that we can safely discard the corresponding feature. We then extend our results to KernelSHAP, the most popular method to approximate SHAP values in practice. We show that if KernelSHAP is computed over the extended distribution, a small aggregate value justifies feature removal. This result holds independently of whether KernelSHAP accurately approximates true SHAP values, making it one of the first theoretical results to characterize the KernelSHAP algorithm itself. Our findings have both theoretical and practical implications. We introduce the Shapley Lie algebra, which offers algebraic insights that may enable a deeper investigation of SHAP and we show that randomly permuting each column of the data matrix enables safely discarding features based on aggregate SHAP and KernelSHAP values.
- Abstract(参考訳): SHAPは、最も人気のあるローカルな特徴帰属手法の1つである。
関数 f と入力 x が与えられたとき、各特徴の f(x) への寄与を定量化する。
実践者は、多くのデータポイントに対して絶対的なSHAP値を平均化し、グローバルな特徴重要度スコアを計算し、重要でない特徴を破棄するために使用される。
本研究では,小さな集合SHAP値が,対応する特徴が機能に影響を与えないことを必ずしも意味しているかどうかを問うことで,この実践の健全性について検討する。
残念なことに、答えはノーである:i番目のSHAP値がデータサポート全体において0であるとしても、明らかにFeature iに依存している関数が存在する。
問題となるのは、SHAP値の計算は、データサポート以外の点におけるfを評価することであり、fはFeature iへの依存を隠蔽するように戦略的に設計することができる。
そこで本稿では, SHAP 値を拡張サポート上に集約する手法を提案する。
この修正により,小さな集合SHAP値が,対応する特徴を安全に破棄できることを示す。
そして、その結果を実際にSHAP値を近似する最も一般的な手法であるKernelSHAPに拡張する。
KernelSHAPが拡張分布上で計算された場合、小さな集約値は特徴の除去を正当化する。
この結果は、KernelSHAPが真のSHAP値を正確に近似するかどうかとは独立に、KernelSHAPアルゴリズム自体を特徴づける最初の理論的結果の1つである。
私たちの発見は理論的にも実用的にも意味がある。
我々は,SHAPのより深い研究を可能にする代数的洞察を提供するShapley Lie代数を導入し,データ行列の各列をランダムに置換することで,SHAPとKernelSHAPの集約値に基づいた機能を安全に破棄できることを示す。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
The consistency properties of TD learning with Polyak-Ruppert averaging and linear function approximation。
まず、分散に明示的に依存し、弱い条件下で保持する新しい高次元確率収束保証を導出する。
さらに、文献よりも高速な速度を保証する凸集合のクラスに対して、洗練された高次元ベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Provably Accurate Shapley Value Estimation via Leverage Score Sampling [12.201705893125775]
本稿では,Kernel SHAP の軽量な修正である Leverage SHAP を紹介する。
提案手法は,強力な回帰ツールであるレバレッジスコアサンプリングを用いて,シェープ値の推定とアクティブラーニングの関連性を利用する。
論文 参考訳(メタデータ) (2024-10-02T18:15:48Z) - The Distributional Uncertainty of the SHAP score in Explainable Machine Learning [2.655371341356892]
本稿では,未知の実体集団分布下でのSHAPスコアの推論の原理的枠組みを提案する。
我々は,この関数の最大値と最小値を求める基本的な問題について検討し,すべての特徴のSHAPスコアに対して厳密な範囲を決定できることを示した。
論文 参考訳(メタデータ) (2024-01-23T13:04:02Z) - Fast Shapley Value Estimation: A Unified Approach [71.92014859992263]
冗長な手法を排除し、単純で効率的なシェープリー推定器SimSHAPを提案する。
既存手法の解析において、推定器は特徴部分集合からランダムに要約された値の線形変換として統一可能であることを観察する。
実験により,SimSHAPの有効性が検証され,精度の高いShapley値の計算が大幅に高速化された。
論文 参考訳(メタデータ) (2023-11-02T06:09:24Z) - A $k$-additive Choquet integral-based approach to approximate the SHAP
values for local interpretability in machine learning [8.637110868126546]
本稿では,Shapley値に基づく機械学習モデルに対する解釈可能性の提供を目的とする。
Kernel SHAPと呼ばれるSHAPベースの手法は、計算労力を少なくしてそのような値を近似する効率的な戦略を採用する。
得られた結果から,提案手法ではSHAP値に近似するために属性の連立性に関する計算がより少ないことが確認された。
論文 参考訳(メタデータ) (2022-11-03T22:34:50Z) - On the Eigenvalues of Global Covariance Pooling for Fine-grained Visual
Recognition [65.67315418971688]
グローバル共分散プーリング(GCP)の小さな固有値をトラッピングすることで、よりスムーズな勾配が得られることを示す。
きめ細かいデータセットでは、小さな固有値の切り抜きは、モデルを収束させるのに失敗する。
この観測から着想を得て,小さな固有値の重要性を拡大するネットワーク分岐を提案する。
論文 参考訳(メタデータ) (2022-05-26T11:41:36Z) - Threading the Needle of On and Off-Manifold Value Functions for Shapley
Explanations [40.95261379462059]
モデルとデータ多様体の両方を尊重する値関数のデシラタを公理の集合で定式化する。
これらの公理を満たすユニークな値関数が存在することを示す。
論文 参考訳(メタデータ) (2022-02-24T06:22:34Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Piecewise Linear Regression via a Difference of Convex Functions [50.89452535187813]
本稿では,データに対する凸関数(DC関数)の差を利用した線形回帰手法を提案する。
実際に実装可能であることを示すとともに,実世界のデータセット上で既存の回帰/分類手法に匹敵する性能を有することを実証的に検証した。
論文 参考訳(メタデータ) (2020-07-05T18:58:47Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z) - Interpretable feature subset selection: A Shapley value based approach [1.511944009967492]
プレイヤーとしての特徴とヒンジロスに基づく特徴関数を持つ協調ゲームである分類ゲームの概念を導入する。
我々の主な貢献は、任意のデータセットに対して、SVEA値のしきい値0がラベル予測のための共同相互作用が重要である特徴サブセットを特定することを示すことである($star$)。
論文 参考訳(メタデータ) (2020-01-12T16:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。