論文の概要: An empirical study of the effect of background data size on the
stability of SHapley Additive exPlanations (SHAP) for deep learning models
- arxiv url: http://arxiv.org/abs/2204.11351v2
- Date: Wed, 27 Apr 2022 08:57:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 07:14:09.959812
- Title: An empirical study of the effect of background data size on the
stability of SHapley Additive exPlanations (SHAP) for deep learning models
- Title(参考訳): 深層学習モデルにおけるSHAP(SHapley Additive Explanations)の安定性に及ぼす背景データサイズの影響に関する実証的研究
- Authors: Han Yuan, Mingxuan Liu, Lican Kang, Chenkui Miao, Ying Wu
- Abstract要約: ランダムサンプリングから得られた異なる背景データセットを使用すると,SHAP値と変数ランキングが変動することを示す。
以上の結果から,背景データがSHAP結果に与える影響を考慮し,背景サンプルサイズが大きくなるにつれてSHAP安定性が向上することが示唆された。
- 参考スコア(独自算出の注目度): 14.65535880059975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, the interpretation of why a machine learning (ML) model makes
certain inferences is as crucial as the accuracy of such inferences. Some ML
models like the decision tree possess inherent interpretability that can be
directly comprehended by humans. Others like artificial neural networks (ANN),
however, rely on external methods to uncover the deduction mechanism. SHapley
Additive exPlanations (SHAP) is one of such external methods, which requires a
background dataset when interpreting ANNs. Generally, a background dataset
consists of instances randomly sampled from the training dataset. However, the
sampling size and its effect on SHAP remain to be unexplored. In our empirical
study on the MIMIC-III dataset, we show that the two core explanations - SHAP
values and variable rankings fluctuate when using different background datasets
acquired from random sampling, indicating that users cannot unquestioningly
trust the one-shot interpretation from SHAP. Luckily, such fluctuation
decreases with the increase of the background dataset size. Also, we notice an
U-shape in the stability assessment of SHAP variable rankings, demonstrating
that SHAP is more reliable in ranking the most and least important variables
compared to moderately important ones. Overall, our results suggest that users
should take into account how background data affects SHAP results, with
improved SHAP stability as the background sample size increases.
- Abstract(参考訳): 今日では、機械学習(ML)モデルが特定の推論を行う理由の解釈は、そのような推論の正確さと同じくらい重要である。
決定木のようなMLモデルは、人間によって直接解釈できる固有の解釈可能性を持っている。
しかし、artificial neural networks (ann)のような他のものは、推論メカニズムを明らかにするために外部の方法に依存している。
SHAP(SHapley Additive exPlanations)は、ANNを解釈する際にバックグラウンドデータセットを必要とする外部メソッドの1つである。
一般的に、バックグラウンドデータセットはトレーニングデータセットからランダムにサンプリングされたインスタンスで構成される。
しかし、サンプリングサイズとそのシャップへの影響は未解明のままである。
MIMIC-IIIデータセットに関する実証的研究では,ランダムサンプリングから取得した異なる背景データセットを使用すると,SHAP値と変数ランクが変動し,SHAPからのワンショット解釈を疑わしく信頼できないことを示す。
幸いなことに、背景データセットサイズの増加に伴い、そのような変動は減少する。
また、SHAP変数ランキングの安定性評価におけるU字型は、中等度に重要な変数よりも、最も重要かつ最も重要でない変数のランク付けに信頼性が高いことを示す。
以上の結果から,背景データがSHAP結果に与える影響を考慮し,背景サンプルサイズが大きくなるにつれてSHAP安定性が向上することが示唆された。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Explainability of Machine Learning Models under Missing Data [2.880748930766428]
データ不足は、モデルの性能と解釈可能性を著しく損なうおそれのある問題である。
本稿では, 欠落データ分野の展開を要約し, 種々の計算法がシェープリー値の計算に与える影響について考察する。
論文 参考訳(メタデータ) (2024-06-29T11:31:09Z) - A Sparsity Principle for Partially Observable Causal Representation Learning [28.25303444099773]
因果表現学習は、知覚データから高レベルの因果変数を特定することを目的としている。
我々は、インスタンスに依存した部分的可観測パターンを持つデータセットから、未確認の観測から学ぶことに集中する。
提案手法は,推定された表現の間隔を小さくすることで,基礎となる因果変数を推定する2つの手法である。
論文 参考訳(メタデータ) (2024-03-13T08:40:49Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Discovering and Explaining the Non-Causality of Deep Learning in SAR ATR [20.662652637190515]
ディープラーニングは、SAR ATRで広く使われ、MSTARデータセット上で優れたパフォーマンスを実現している。
本稿では,Shapley値に基づいて,異なる領域の目標認識に対する貢献度を定量化する。
データバイアスとモデルバイアスが非因果性にどのように貢献するかを説明する。
論文 参考訳(メタデータ) (2023-04-03T00:45:11Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Meta Learning for Causal Direction [29.00522306460408]
小型データ設定における原因と効果の区別を可能にする新しい生成モデルを提案する。
提案手法は, 各種合成データと実世界のデータを用いて実証し, 種々のデータセットサイズにおける方向検出の精度を高い精度で維持可能であることを示す。
論文 参考訳(メタデータ) (2020-07-06T15:12:05Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z) - Differentially Private ERM Based on Data Perturbation [41.37436071802578]
最終学習モデルにおける各種トレーニングデータインスタンスのコントリビューションを測定した。
本手法の鍵は各データインスタンスを別々に計測することであり,DP-ERMのための新しいデータ摂動(DB)パラダイムを提案する。
論文 参考訳(メタデータ) (2020-02-20T06:05:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。