Fugu-MT 論文翻訳(概要): An empirical study of the effect of background data size on the stability of SHapley Additive exPlanations (SHAP) for deep learning models

論文の概要: An empirical study of the effect of background data size on the stability of SHapley Additive exPlanations (SHAP) for deep learning models

arxiv url: http://arxiv.org/abs/2204.11351v3
Date: Sun, 9 Apr 2023 05:48:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-12 00:04:11.020628
Title: An empirical study of the effect of background data size on the stability of SHapley Additive exPlanations (SHAP) for deep learning models
Title（参考訳）: 深層学習モデルにおけるSHAP(SHapley Additive Explanations)の安定性に及ぼす背景データサイズの影響に関する実証的研究
Authors: Han Yuan, Mingxuan Liu, Lican Kang, Chenkui Miao, Ying Wu
Abstract要約: ランダムサンプリングから得られた異なる背景データセットを使用すると,SHAP値と変数ランキングが変動することを示す。以上の結果から,背景データがSHAP結果に与える影響を考慮し,背景サンプルサイズが大きくなるにつれてSHAP安定性が向上することが示唆された。
参考スコア（独自算出の注目度）: 14.65535880059975
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Nowadays, the interpretation of why a machine learning (ML) model makes certain inferences is as crucial as the accuracy of such inferences. Some ML models like the decision tree possess inherent interpretability that can be directly comprehended by humans. Others like artificial neural networks (ANN), however, rely on external methods to uncover the deduction mechanism. SHapley Additive exPlanations (SHAP) is one of such external methods, which requires a background dataset when interpreting ANNs. Generally, a background dataset consists of instances randomly sampled from the training dataset. However, the sampling size and its effect on SHAP remain to be unexplored. In our empirical study on the MIMIC-III dataset, we show that the two core explanations - SHAP values and variable rankings fluctuate when using different background datasets acquired from random sampling, indicating that users cannot unquestioningly trust the one-shot interpretation from SHAP. Luckily, such fluctuation decreases with the increase of the background dataset size. Also, we notice an U-shape in the stability assessment of SHAP variable rankings, demonstrating that SHAP is more reliable in ranking the most and least important variables compared to moderately important ones. Overall, our results suggest that users should take into account how background data affects SHAP results, with improved SHAP stability as the background sample size increases.
Abstract（参考訳）: 今日では、機械学習(ML)モデルが特定の推論を行う理由の解釈は、そのような推論の正確さと同じくらい重要である。決定木のようなMLモデルは、人間によって直接解釈できる固有の解釈可能性を持っている。しかし、artificial neural networks (ann)のような他のものは、推論メカニズムを明らかにするために外部の方法に依存している。 SHAP(SHapley Additive exPlanations)は、ANNを解釈する際にバックグラウンドデータセットを必要とする外部メソッドの1つである。一般的に、バックグラウンドデータセットはトレーニングデータセットからランダムにサンプリングされたインスタンスで構成される。しかし、サンプリングサイズとそのシャップへの影響は未解明のままである。 MIMIC-IIIデータセットに関する実証的研究では,ランダムサンプリングから取得した異なる背景データセットを使用すると,SHAP値と変数ランクが変動し,SHAPからのワンショット解釈を疑わしく信頼できないことを示す。幸いなことに、背景データセットサイズの増加に伴い、そのような変動は減少する。また、SHAP変数ランキングの安定性評価におけるU字型は、中等度に重要な変数よりも、最も重要かつ最も重要でない変数のランク付けに信頼性が高いことを示す。以上の結果から,背景データがSHAP結果に与える影響を考慮し,背景サンプルサイズが大きくなるにつれてSHAP安定性が向上することが示唆された。

関連論文リスト

Attributing Data for Sharpness-Aware Minimization [4.924675851574611]
シャープネスを意識した最小化(SAM)は、損失幾何学と一般化をリンクすることで、大規模モデルトレーニングにおける一般化を改善する。しかし、誤ったラベル付きノイズデータやプライバシー上の懸念といった課題が大きな問題として浮上している。我々はSAMのための2つの革新的なデータ評価手法を開発し、それぞれ異なるシナリオでユニークな利点を提供している。
論文参考訳（メタデータ） (2025-07-05T14:46:42Z)
In Shift and In Variance: Assessing the Robustness of HAR Deep Learning Models against Variability [4.330123738563178]
ウェアラブル慣性測定ユニット(IMU)センサーを用いたHAR(Human Activity Recognition)は、継続的な健康モニタリング、疾患予測、定期的な認識を可能にして、医療に革命をもたらすことができる。ディープラーニング(DL)HARモデルの精度は高いが、実世界の変動に対する堅牢性はまだ証明されていない。対象, 装置, 位置, 方向の変動を分離し, DL HARモデルへの影響を判定し, 実環境におけるそれらのモデルのロバスト性を評価する。
論文参考訳（メタデータ） (2025-03-14T14:53:56Z)
Federated Learning with Sample-level Client Drift Mitigation [15.248811557566128]
Federated Learningは、クライアント間のデータの不均一性によって、パフォーマンスが大幅に低下する。本稿では,まず不均一性問題をサンプルレベルで緩和するFedBSSを提案する。また,特徴分布とノイズラベルデータセット設定の効果的な結果を得た。
論文参考訳（メタデータ） (2025-01-20T09:44:07Z)
A recursive Bayesian neural network for constitutive modeling of sands under monotonic loading [0.0]
ジオエンジニアリングにおいて、モデルは様々な負荷条件下での土壌の挙動を記述する上で重要な役割を担っている。データ駆動型ディープラーニング(DL)モデルは、予測モデルを開発するための有望な代替手段を提供する。予測が主眼となる場合、訓練されたDLモデルの予測不確実性を定量化することは、情報的意思決定に不可欠である。
論文参考訳（メタデータ） (2025-01-17T10:15:03Z)
Drift-Resilient TabPFN: In-Context Learning Temporal Distribution Shifts on Tabular Data [39.40116554523575]
In-Context Learning with a Prior-Data Fitted Network に基づく新しいアプローチである Drift-Resilient TabPFN を提案する。先行した合成データセットのベイズ推定を近似することを学ぶ。精度は0.688から0.744に向上し、OC AUCは0.786から0.832に向上し、キャリブレーションも強化された。
論文参考訳（メタデータ） (2024-11-15T23:49:23Z)
Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。 DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。 10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-20T01:34:13Z)
A Sparsity Principle for Partially Observable Causal Representation Learning [28.25303444099773]
因果表現学習は、知覚データから高レベルの因果変数を特定することを目的としている。我々は、インスタンスに依存した部分的可観測パターンを持つデータセットから、未確認の観測から学ぶことに集中する。提案手法は,推定された表現の間隔を小さくすることで,基礎となる因果変数を推定する2つの手法である。
論文参考訳（メタデータ） (2024-03-13T08:40:49Z)
Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2024-03-11T16:22:41Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)
Discovering and Explaining the Non-Causality of Deep Learning in SAR ATR [20.662652637190515]
ディープラーニングは、SAR ATRで広く使われ、MSTARデータセット上で優れたパフォーマンスを実現している。本稿では,Shapley値に基づいて,異なる領域の目標認識に対する貢献度を定量化する。データバイアスとモデルバイアスが非因果性にどのように貢献するかを説明する。
論文参考訳（メタデータ） (2023-04-03T00:45:11Z)
Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。実験結果から,これらの手法が直面する課題を分析した。本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文参考訳（メタデータ） (2022-03-23T07:33:37Z)
Bridging the Gap Between Clean Data Training and Real-World Inference for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文参考訳（メタデータ） (2021-04-13T17:54:33Z)
Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。 ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文参考訳（メタデータ） (2020-12-13T03:41:52Z)
Meta Learning for Causal Direction [29.00522306460408]
小型データ設定における原因と効果の区別を可能にする新しい生成モデルを提案する。提案手法は, 各種合成データと実世界のデータを用いて実証し, 種々のデータセットサイズにおける方向検出の精度を高い精度で維持可能であることを示す。
論文参考訳（メタデータ） (2020-07-06T15:12:05Z)
Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。影響評価は浅いネットワークではかなり正確ですヘッセン正則化は、高品質な影響推定を得るために重要である。
論文参考訳（メタデータ） (2020-06-25T18:25:59Z)
Differentially Private ERM Based on Data Perturbation [41.37436071802578]
最終学習モデルにおける各種トレーニングデータインスタンスのコントリビューションを測定した。本手法の鍵は各データインスタンスを別々に計測することであり,DP-ERMのための新しいデータ摂動(DB)パラダイムを提案する。
論文参考訳（メタデータ） (2020-02-20T06:05:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。