論文の概要: SHAP@k:Efficient and Probably Approximately Correct (PAC) Identification
of Top-k Features
- arxiv url: http://arxiv.org/abs/2307.04850v1
- Date: Mon, 10 Jul 2023 18:42:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 17:24:01.556866
- Title: SHAP@k:Efficient and Probably Approximately Correct (PAC) Identification
of Top-k Features
- Title(参考訳): SHAP@k:Top-k特徴の精度とほぼ正当性(PAC)同定
- Authors: Sanjay Kariyappa, Leonidas Tsepenekas, Freddy L\'ecu\'e, Daniele
Magazzeni
- Abstract要約: 本稿では,トップk識別問題(TkIP)を紹介し,最も高いSHAP値を持つk特徴を特定することを目的とする。
我々の研究の目的は、TkIP解決の文脈において、既存の手法のサンプル効率を改善することである。
- 参考スコア(独自算出の注目度): 16.99004256148679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The SHAP framework provides a principled method to explain the predictions of
a model by computing feature importance. Motivated by applications in finance,
we introduce the Top-k Identification Problem (TkIP), where the objective is to
identify the k features with the highest SHAP values. While any method to
compute SHAP values with uncertainty estimates (such as KernelSHAP and
SamplingSHAP) can be trivially adapted to solve TkIP, doing so is highly sample
inefficient. The goal of our work is to improve the sample efficiency of
existing methods in the context of solving TkIP. Our key insight is that TkIP
can be framed as an Explore-m problem--a well-studied problem related to
multi-armed bandits (MAB). This connection enables us to improve sample
efficiency by leveraging two techniques from the MAB literature: (1) a better
stopping-condition (to stop sampling) that identifies when PAC (Probably
Approximately Correct) guarantees have been met and (2) a greedy sampling
scheme that judiciously allocates samples between different features. By
adopting these methods we develop KernelSHAP@k and SamplingSHAP@k to
efficiently solve TkIP, offering an average improvement of $5\times$ in
sample-efficiency and runtime across most common credit related datasets.
- Abstract(参考訳): SHAPフレームワークは、特徴量の計算によってモデルの予測を説明するための原則的手法を提供する。
ファイナンスにおけるアプリケーションによって動機づけられたTop-k Identification Problem (TkIP)を導入し、最も高いSHAP値を持つk特徴を特定することを目的とする。
不確実性推定を伴うSHAP値を計算する方法(KernelSHAP や SmplingSHAP など)は、TkIP を解くために自明に適応できるが、サンプリング非効率である。
我々の研究の目的は、TkIP解決の文脈において、既存の手法のサンプル効率を改善することである。
我々の重要な洞察は、TkIPは、マルチアームバンディット(MAB)に関するよく研究された問題であるExplore-m問題としてフレーム化できるということである。
この接続により,(1)PAC保証が満たされた場合に識別するより良い停止条件(サンプリングを停止させる)と(2)異なる特徴間のサンプルを任意に割り当てる欲求的なサンプリングスキームの2つの手法を活用することで,サンプル効率を向上させることができる。
これらのメソッドを採用することで、KernelSHAP@kとSmplingSHAP@kを開発し、TkIPを効率的に解決し、一般的なクレジット関連データセットのサンプル効率と実行時の平均5ドル以上の改善を提供します。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Enhancing Trade-offs in Privacy, Utility, and Computational Efficiency through MUltistage Sampling Technique (MUST) [3.0939420223851446]
プライバシ・アンプリフィケーション(PA)のためのサブサンプリング手法のクラスを提案する。
本研究は2段階MUST法におけるPA効果と実用性について包括的に解析する。
MUSTの繰り返し適用に関するプライバシー損失構成分析を行う。
論文 参考訳(メタデータ) (2023-12-20T19:38:29Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - Plug-and-Play split Gibbs sampler: embedding deep generative priors in
Bayesian inference [12.91637880428221]
本稿では, 後方分布から効率的にサンプリングするために, 可変分割を利用したプラグアンドプレイサンプリングアルゴリズムを提案する。
後方サンプリングの課題を2つの単純なサンプリング問題に分割する。
その性能は最近の最先端の最適化とサンプリング手法と比較される。
論文 参考訳(メタデータ) (2023-04-21T17:17:51Z) - A $k$-additive Choquet integral-based approach to approximate the SHAP
values for local interpretability in machine learning [8.637110868126546]
本稿では,Shapley値に基づく機械学習モデルに対する解釈可能性の提供を目的とする。
Kernel SHAPと呼ばれるSHAPベースの手法は、計算労力を少なくしてそのような値を近似する効率的な戦略を採用する。
得られた結果から,提案手法ではSHAP値に近似するために属性の連立性に関する計算がより少ないことが確認された。
論文 参考訳(メタデータ) (2022-11-03T22:34:50Z) - Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。
提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。
本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。
本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文 参考訳(メタデータ) (2022-10-11T20:20:20Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。