論文の概要: An empirical study of the effect of background data size on the
stability of SHapley Additive exPlanations (SHAP) for deep learning models
- arxiv url: http://arxiv.org/abs/2204.11351v3
- Date: Sun, 9 Apr 2023 05:48:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 00:04:11.020628
- Title: An empirical study of the effect of background data size on the
stability of SHapley Additive exPlanations (SHAP) for deep learning models
- Title(参考訳): 深層学習モデルにおけるSHAP(SHapley Additive Explanations)の安定性に及ぼす背景データサイズの影響に関する実証的研究
- Authors: Han Yuan, Mingxuan Liu, Lican Kang, Chenkui Miao, Ying Wu
- Abstract要約: ランダムサンプリングから得られた異なる背景データセットを使用すると,SHAP値と変数ランキングが変動することを示す。
以上の結果から,背景データがSHAP結果に与える影響を考慮し,背景サンプルサイズが大きくなるにつれてSHAP安定性が向上することが示唆された。
- 参考スコア(独自算出の注目度): 14.65535880059975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, the interpretation of why a machine learning (ML) model makes
certain inferences is as crucial as the accuracy of such inferences. Some ML
models like the decision tree possess inherent interpretability that can be
directly comprehended by humans. Others like artificial neural networks (ANN),
however, rely on external methods to uncover the deduction mechanism. SHapley
Additive exPlanations (SHAP) is one of such external methods, which requires a
background dataset when interpreting ANNs. Generally, a background dataset
consists of instances randomly sampled from the training dataset. However, the
sampling size and its effect on SHAP remain to be unexplored. In our empirical
study on the MIMIC-III dataset, we show that the two core explanations - SHAP
values and variable rankings fluctuate when using different background datasets
acquired from random sampling, indicating that users cannot unquestioningly
trust the one-shot interpretation from SHAP. Luckily, such fluctuation
decreases with the increase of the background dataset size. Also, we notice an
U-shape in the stability assessment of SHAP variable rankings, demonstrating
that SHAP is more reliable in ranking the most and least important variables
compared to moderately important ones. Overall, our results suggest that users
should take into account how background data affects SHAP results, with
improved SHAP stability as the background sample size increases.
- Abstract(参考訳): 今日では、機械学習(ML)モデルが特定の推論を行う理由の解釈は、そのような推論の正確さと同じくらい重要である。
決定木のようなMLモデルは、人間によって直接解釈できる固有の解釈可能性を持っている。
しかし、artificial neural networks (ann)のような他のものは、推論メカニズムを明らかにするために外部の方法に依存している。
SHAP(SHapley Additive exPlanations)は、ANNを解釈する際にバックグラウンドデータセットを必要とする外部メソッドの1つである。
一般的に、バックグラウンドデータセットはトレーニングデータセットからランダムにサンプリングされたインスタンスで構成される。
しかし、サンプリングサイズとそのシャップへの影響は未解明のままである。
MIMIC-IIIデータセットに関する実証的研究では,ランダムサンプリングから取得した異なる背景データセットを使用すると,SHAP値と変数ランクが変動し,SHAPからのワンショット解釈を疑わしく信頼できないことを示す。
幸いなことに、背景データセットサイズの増加に伴い、そのような変動は減少する。
また、SHAP変数ランキングの安定性評価におけるU字型は、中等度に重要な変数よりも、最も重要かつ最も重要でない変数のランク付けに信頼性が高いことを示す。
以上の結果から,背景データがSHAP結果に与える影響を考慮し,背景サンプルサイズが大きくなるにつれてSHAP安定性が向上することが示唆された。
関連論文リスト
- Federated Learning with Sample-level Client Drift Mitigation [15.248811557566128]
Federated Learningは、クライアント間のデータの不均一性によって、パフォーマンスが大幅に低下する。
本稿では,まず不均一性問題をサンプルレベルで緩和するFedBSSを提案する。
また,特徴分布とノイズラベルデータセット設定の効果的な結果を得た。
論文 参考訳(メタデータ) (2025-01-20T09:44:07Z) - A recursive Bayesian neural network for constitutive modeling of sands under monotonic loading [0.0]
ジオエンジニアリングにおいて、モデルは様々な負荷条件下での土壌の挙動を記述する上で重要な役割を担っている。
データ駆動型ディープラーニング(DL)モデルは、予測モデルを開発するための有望な代替手段を提供する。
予測が主眼となる場合、訓練されたDLモデルの予測不確実性を定量化することは、情報的意思決定に不可欠である。
論文 参考訳(メタデータ) (2025-01-17T10:15:03Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Discovering and Explaining the Non-Causality of Deep Learning in SAR ATR [20.662652637190515]
ディープラーニングは、SAR ATRで広く使われ、MSTARデータセット上で優れたパフォーマンスを実現している。
本稿では,Shapley値に基づいて,異なる領域の目標認識に対する貢献度を定量化する。
データバイアスとモデルバイアスが非因果性にどのように貢献するかを説明する。
論文 参考訳(メタデータ) (2023-04-03T00:45:11Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Meta Learning for Causal Direction [29.00522306460408]
小型データ設定における原因と効果の区別を可能にする新しい生成モデルを提案する。
提案手法は, 各種合成データと実世界のデータを用いて実証し, 種々のデータセットサイズにおける方向検出の精度を高い精度で維持可能であることを示す。
論文 参考訳(メタデータ) (2020-07-06T15:12:05Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z) - Differentially Private ERM Based on Data Perturbation [41.37436071802578]
最終学習モデルにおける各種トレーニングデータインスタンスのコントリビューションを測定した。
本手法の鍵は各データインスタンスを別々に計測することであり,DP-ERMのための新しいデータ摂動(DB)パラダイムを提案する。
論文 参考訳(メタデータ) (2020-02-20T06:05:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。