論文の概要: The Distributional Uncertainty of the SHAP score in Explainable Machine Learning
- arxiv url: http://arxiv.org/abs/2401.12731v4
- Date: Tue, 13 Aug 2024 16:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 23:04:59.197610
- Title: The Distributional Uncertainty of the SHAP score in Explainable Machine Learning
- Title(参考訳): 説明可能な機械学習におけるSHAPスコアの分布不確かさ
- Authors: Santiago Cifuentes, Leopoldo Bertossi, Nina Pardal, Sergio Abriola, Maria Vanina Martinez, Miguel Romero,
- Abstract要約: 本稿では,未知の実体集団分布下でのSHAPスコアの推論の原理的枠組みを提案する。
我々は,この関数の最大値と最小値を求める基本的な問題について検討し,すべての特徴のSHAPスコアに対して厳密な範囲を決定できることを示した。
- 参考スコア(独自算出の注目度): 2.655371341356892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attribution scores reflect how important the feature values in an input entity are for the output of a machine learning model. One of the most popular attribution scores is the SHAP score, which is an instantiation of the general Shapley value used in coalition game theory. The definition of this score relies on a probability distribution on the entity population. Since the exact distribution is generally unknown, it needs to be assigned subjectively or be estimated from data, which may lead to misleading feature scores. In this paper, we propose a principled framework for reasoning on SHAP scores under unknown entity population distributions. In our framework, we consider an uncertainty region that contains the potential distributions, and the SHAP score of a feature becomes a function defined over this region. We study the basic problems of finding maxima and minima of this function, which allows us to determine tight ranges for the SHAP scores of all features. In particular, we pinpoint the complexity of these problems, and other related ones, showing them to be NP-complete. Finally, we present experiments on a real-world dataset, showing that our framework may contribute to a more robust feature scoring.
- Abstract(参考訳): 属性スコアは、入力エンティティにおける特徴値が機械学習モデルの出力にどれほど重要であるかを反映する。
最も人気のある属性スコアの1つはSHAPスコアであり、これは連立ゲーム理論で使われる一般的なシェープリー値のインスタンス化である。
このスコアの定義は、実体人口の確率分布に依存する。
正確な分布は一般に不明であるため、主観的に割り振るか、データから推定する必要がある。
本稿では,未知の実体集団分布下でのSHAPスコアの推論の原理的枠組みを提案する。
本フレームワークでは,潜在的な分布を含む不確実性領域を考察し,特徴量のSHAPスコアをこの領域上で定義した関数とする。
我々は,この関数の最大値と最小値を求める基本的な問題について検討し,すべての特徴のSHAPスコアに対して厳密な範囲を決定できることを示した。
特に、これらの問題と他の関連する問題の複雑さを指摘し、NP完全であることを示す。
最後に、実世界のデータセットで実験を行い、我々のフレームワークがより堅牢な機能スコアリングに寄与することを示した。
関連論文リスト
- Enhancing Model Interpretability with Local Attribution over Global Exploration [6.3144983055172235]
現在の帰属アルゴリズムはサンプル空間を探索することで各パラメータの重要性を評価する。
探索プロセス中に多数の中間状態が導入され、それはモデルのout-of-Distribution(OOD)空間に到達する可能性がある。
これらの特性を利用する局所属性(LA)アルゴリズムを提案する。
提案手法は,最先端の属性手法と比較して平均38.21%の属性効率向上を実現している。
論文 参考訳(メタデータ) (2024-08-14T17:53:08Z) - Probabilistic Scoring Lists for Interpretable Machine Learning [20.644711679310152]
スコアリングシステムは、一連の特徴を確認し、満足している各特徴の合計スコアに一定数のポイントを追加し、最終的にスコアをしきい値と比較して決定する単純な決定モデルである。
本稿では、確率的スコアリングリスト(PSL)と呼ばれるスコアリングシステムの実践的な拡張と、データからPSLを学習する方法を提案する。
論文 参考訳(メタデータ) (2024-07-31T11:44:54Z) - On the Tractability of SHAP Explanations under Markovian Distributions [0.1578515540930834]
SHAPフレームワークはMLモデルの局所的な説明可能性のための最も広く利用されているフレームワークの1つである。
その人気にもかかわらず、その正確な計算は非常に困難であることが知られ、様々な構成においてNP-Hardであることが証明されている。
近年の研究では、特定のモデルファミリーに対するSHAPスコアの計算に関して、肯定的な複雑性の結果が明らかにされている。
論文 参考訳(メタデータ) (2024-05-05T13:56:12Z) - CPR++: Object Localization via Single Coarse Point Supervision [55.8671776333499]
粗い点修正(CPR)は、アルゴリズムの観点からの意味的分散を緩和する最初の試みである。
CPRは、アノテートされた最初のポイントを置き換えるために、近隣地域のセマンティックセンターポイントを選択することで意味のばらつきを減らす。
CPR++は、スケール情報を取得し、グローバル領域における意味的分散をさらに低減することができる。
論文 参考訳(メタデータ) (2024-01-30T17:38:48Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Robust Outlier Rejection for 3D Registration with Variational Bayes [70.98659381852787]
我々は、ロバストアライメントのための新しい変分非局所ネットワークベース外乱除去フレームワークを開発した。
そこで本稿では, 投票に基づく不整合探索手法を提案し, 変換推定のための高品質な仮説的不整合をクラスタリングする。
論文 参考訳(メタデータ) (2023-04-04T03:48:56Z) - On the Efficacy of Generalization Error Prediction Scoring Functions [33.24980750651318]
一般化誤差予測器(GEP)は,サンプルレベルのスコアからデータセットレベルの誤差推定を導出することにより,未知分布のモデル性能を予測することを目的としている。
機構選択に依存しない一般的なスコアリング関数(自信,局所多様体の滑らかさ,モデル適合性)の有効性を厳密に研究する。
論文 参考訳(メタデータ) (2023-03-23T18:08:44Z) - Partial Order in Chaos: Consensus on Feature Attributions in the
Rashomon Set [50.67431815647126]
ポストホックなグローバル/ローカルな特徴属性法は、機械学習モデルを理解するために徐々に採用されている。
この手法により局所的・言語的特徴の半順序が生じることを示す。
これらの部分的な順序に現れる特徴間の関係は、既存のアプローチによって提供されたランクにも当てはまることを示す。
論文 参考訳(メタデータ) (2021-10-26T02:53:14Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - Bayesian Importance of Features (BIF) [11.312036995195594]
ディリクレ分布を用いて入力特徴の重要性を定義し、近似ベイズ推論により学習する。
学習された重要性は確率論的解釈を持ち、モデルの出力に対する各入力特徴の相対的な重要性を提供する。
本手法は, 各種合成および実データに対する有効性を示す。
論文 参考訳(メタデータ) (2020-10-26T19:55:58Z) - GANs with Conditional Independence Graphs: On Subadditivity of
Probability Divergences [70.30467057209405]
GAN(Generative Adversarial Networks)は、データセットの基盤となる分布を学習するための現代的な手法である。
GANは、基礎となるディストリビューションに関する追加情報がないモデルフリーで設計されている。
本稿では,ベイズネット/MRFの近傍に単純な識別器群を用いたモデルベースGANの設計を提案する。
論文 参考訳(メタデータ) (2020-03-02T04:31:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。