論文の概要: Balanced background and explanation data are needed in explaining deep
learning models with SHAP: An empirical study on clinical decision making
- arxiv url: http://arxiv.org/abs/2206.04050v1
- Date: Wed, 8 Jun 2022 04:08:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-11 06:53:51.244827
- Title: Balanced background and explanation data are needed in explaining deep
learning models with SHAP: An empirical study on clinical decision making
- Title(参考訳): SHAPを用いた深層学習モデルの説明には背景バランスと説明データが必要である:臨床意思決定に関する実証的研究
- Authors: Mingxuan Liu, Yilin Ning, Han Yuan, Marcus Eng Hock Ong, Nan Liu
- Abstract要約: 我々は,ブラックボックスモデルを説明する際に,背景のクラス分布とSHAPにおける説明データを調整することを提案する。
我々のデータバランス戦略は、クラスを均等に分散した背景データと説明データを構成することである。
これらのバランスは、臨床応用において異常な特徴を有する患者を同定する際のSHAPの可能性を向上する。
- 参考スコア(独自算出の注目度): 6.33158371177464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective: Shapley additive explanations (SHAP) is a popular post-hoc
technique for explaining black box models. While the impact of data imbalance
on predictive models has been extensively studied, it remains largely unknown
with respect to SHAP-based model explanations. This study sought to investigate
the effects of data imbalance on SHAP explanations for deep learning models,
and to propose a strategy to mitigate these effects. Materials and Methods: We
propose to adjust class distributions in the background and explanation data in
SHAP when explaining black box models. Our data balancing strategy is to
compose background data and explanation data with an equal distribution of
classes. To evaluate the effects of data adjustment on model explanation, we
propose to use the beeswarm plot as a qualitative tool to identify "abnormal"
explanation artifacts, and quantitatively test the consistency between variable
importance and prediction power. We demonstrated our proposed approach in an
empirical study that predicted inpatient mortality using the Medical
Information Mart for Intensive Care (MIMIC-III) data and a multilayer
perceptron. Results: Using the data balancing strategy would allow us to reduce
the number of the artifacts in the beeswarm plot, thus mitigating the negative
effects of data imbalance. Additionally, with the balancing strategy, the
top-ranked variables from the corresponding importance ranking demonstrated
improved discrimination power. Discussion and Conclusion: Our findings suggest
that balanced background and explanation data could help reduce the noise in
explanation results induced by skewed data distribution and improve the
reliability of variable importance ranking. Furthermore, these balancing
procedures improve the potential of SHAP in identifying patients with abnormal
characteristics in clinical applications.
- Abstract(参考訳): Objective: Shapley Additive explanations (SHAP)はブラックボックスモデルを説明する一般的なポストホック手法である。
データ不均衡が予測モデルに与える影響は広く研究されているが、SHAPに基づくモデル説明に関してはほとんど不明である。
本研究では,データ不均衡が深層学習モデルのSHAP説明に与える影響について検討し,これらの効果を緩和するための戦略を提案する。
対象と方法:ブラックボックスモデルを説明する際に,背景のクラス分布とSHAPの説明データを調整することを提案する。
我々のデータバランス戦略は、クラスを均等に分散した背景データと説明データを構成することである。
本研究では,データ調整がモデル説明に与える影響を評価するために,「不正規」な説明アーチファクトを識別するための定性的ツールとしてbeeswarmプロットを用い,変数の重要度と予測力の一貫性を定量的に検証する。
我々は,MIMIC-IIIデータと多層パーセプトロンを用いて,入院患者の死亡を予測した経験的研究で提案手法を実証した。
結果: データバランス戦略を用いることで,ミツバチプロット内のアーティファクトの数を削減し,データ不均衡の負の効果を軽減することができる。
さらに、バランス戦略により、対応する重要度ランキングの上位変数は差別力の向上を示した。
考察と結論: 背景データと説明データのバランスは, 歪データ分布による説明結果のノイズ低減と, 変数重要度ランキングの信頼性向上に寄与することが示唆された。
さらに、これらのバランスをとることで、臨床応用における異常な特徴を有する患者を識別するSHAPの可能性が向上する。
関連論文リスト
- Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Understanding Disparities in Post Hoc Machine Learning Explanation [2.965442487094603]
従来の研究では、既存のポストホックな説明法は説明の忠実度に相違があることが強調されている(「レース」と「ジェンダー」は敏感な属性である)。
データの性質から生じる格差を説明するための課題を特に評価する。
結果は、モデル説明の相違はデータやモデルの性質にも依存できることを示している。
論文 参考訳(メタデータ) (2024-01-25T22:09:28Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - The Effect of Balancing Methods on Model Behavior in Imbalanced
Classification Problems [4.370097023410272]
不均衡なデータは、マイノリティクラスからの学習不足によってモデルのパフォーマンスが影響を受けるため、分類において課題となる。
この研究は、バランスをとる方法のより困難な側面、すなわちモデル行動への影響に対処する。
これらの変化を捉えるために、説明可能な人工知能ツールは、バランスをとる前後にデータセットでトレーニングされたモデルを比較するために使用される。
論文 参考訳(メタデータ) (2023-06-30T22:25:01Z) - Understanding Influence Functions and Datamodels via Harmonic Analysis [36.86262318584668]
個々のデータポイントがテストデータに対するモデルの予測に与える影響を推定する。
それらは、データ中毒の検出、有用で有害な例の検出、データポイントのグループの影響などに使われる。
近年、Ilyasら[2022]は、データモデルと呼ばれる線形回帰手法を導入し、テストデータに対するトレーニングポイントの効果を予測した。
本稿では,このような興味深い経験的現象の理論的理解を深めることを目的とする。
論文 参考訳(メタデータ) (2022-10-03T16:45:33Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - Analyzing the Effects of Handling Data Imbalance on Learned Features
from Medical Images by Looking Into the Models [50.537859423741644]
不均衡なデータセットでモデルをトレーニングすることは、学習問題にユニークな課題をもたらす可能性がある。
ニューラルネットワークの内部ユニットを深く調べて、データの不均衡処理が学習した機能にどのように影響するかを観察します。
論文 参考訳(メタデータ) (2022-04-04T09:38:38Z) - Sampling To Improve Predictions For Underrepresented Observations In
Imbalanced Data [0.0]
データ不均衡は、表現不足な観測におけるモデルの予測性能に悪影響を及ぼす。
本研究では,過去の生産データに基づいてトレーニングされたモデルの性能向上を目標として,この不均衡に対応するためのサンプリングを提案する。
我々はペニシリン生産の先進的なシミュレーションから得られたバイオ医薬品製造データセットに本手法を適用した。
論文 参考訳(メタデータ) (2021-11-17T12:16:54Z) - An Optimal Control Approach to Learning in SIDARTHE Epidemic model [67.22168759751541]
本研究では,疫病データから動的コンパートメンタルモデルの時間変化パラメータを学習するための一般的な手法を提案する。
我々はイタリアとフランスの疫病の進化を予報する。
論文 参考訳(メタデータ) (2020-10-28T10:58:59Z) - Counterfactual Representation Learning with Balancing Weights [74.67296491574318]
観察データによる因果推論の鍵は、それぞれの治療タイプに関連する予測的特徴のバランスを達成することである。
近年の文献では、この目標を達成するために表現学習を探求している。
因果効果を柔軟かつスケーラブルかつ正確に推定するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-10-23T19:06:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。