論文の概要: Right for the Wrong Reason: Can Interpretable ML Techniques Detect
Spurious Correlations?
- arxiv url: http://arxiv.org/abs/2307.12344v2
- Date: Tue, 8 Aug 2023 14:52:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 16:13:20.347192
- Title: Right for the Wrong Reason: Can Interpretable ML Techniques Detect
Spurious Correlations?
- Title(参考訳): 正しい理由:解釈可能なML技術は偽相関を検出できるか?
- Authors: Susu Sun, Lisa M. Koch, Christian F. Baumgartner
- Abstract要約: 本稿では,素早い相関関係を正確に識別する説明手法の能力を評価するための厳密な評価手法を提案する。
ポストホックな手法であるSHAPと本質的に解釈可能なAttri-Netが最高のパフォーマンスを提供することがわかった。
- 参考スコア(独自算出の注目度): 2.7558542803110244
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While deep neural network models offer unmatched classification performance,
they are prone to learning spurious correlations in the data. Such dependencies
on confounding information can be difficult to detect using performance metrics
if the test data comes from the same distribution as the training data.
Interpretable ML methods such as post-hoc explanations or inherently
interpretable classifiers promise to identify faulty model reasoning. However,
there is mixed evidence whether many of these techniques are actually able to
do so. In this paper, we propose a rigorous evaluation strategy to assess an
explanation technique's ability to correctly identify spurious correlations.
Using this strategy, we evaluate five post-hoc explanation techniques and one
inherently interpretable method for their ability to detect three types of
artificially added confounders in a chest x-ray diagnosis task. We find that
the post-hoc technique SHAP, as well as the inherently interpretable Attri-Net
provide the best performance and can be used to reliably identify faulty model
behavior.
- Abstract(参考訳): ディープニューラルネットワークモデルは、未整合の分類性能を提供するが、データ内の急激な相関を学習する傾向がある。
テストデータがトレーニングデータと同じ分布から来ている場合、その情報に対するそのような依存をパフォーマンスメトリクスを使って検出することは困難である。
ポストホックな説明や本質的に解釈可能な分類器のような解釈可能なMLメソッドは、欠陥モデル推論を特定することを約束する。
しかし、これらの技法が実際にできるかどうかについては諸説ある。
本稿では,説明手法のスプリアス相関を正しく識別する能力を評価するための厳密な評価手法を提案する。
この戦略を用いて,胸部x線診断タスクにおいて3種類の人工的な共同創設者を検出できるため,ホック後の5つの説明手法と本質的に解釈可能な1つの手法を評価した。
ポストホックな手法であるSHAPと本質的に解釈可能なAttri-Netは、最高の性能を提供し、欠陥モデルの振る舞いを確実に識別するために使用できる。
関連論文リスト
- DISCO: DISCovering Overfittings as Causal Rules for Text Classification Models [6.369258625916601]
ポストホックの解釈可能性法は、モデルの意思決定プロセスを完全に捉えるのに失敗する。
本稿では,グローバルなルールベースの説明を見つけるための新しい手法であるdisCOを紹介する。
DISCOは対話的な説明をサポートし、人間の検査者がルールベースの出力で突発的な原因を区別できるようにする。
論文 参考訳(メタデータ) (2024-11-07T12:12:44Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - CLIMAX: An exploration of Classifier-Based Contrastive Explanations [5.381004207943597]
我々は,ブラックボックスの分類を正当化する対照的な説明を提供する,ポストホックモデルXAI手法を提案する。
CLIMAXと呼ばれる手法は,局所的な分類法に基づく。
LIME, BayLIME, SLIMEなどのベースラインと比較して, 一貫性が向上することを示す。
論文 参考訳(メタデータ) (2023-07-02T22:52:58Z) - Post hoc Explanations may be Ineffective for Detecting Unknown Spurious
Correlation [12.185584875925906]
本研究では,3種類のポストホックモデル説明が,訓練データ中の刺激信号に依存するモデルの検出に有効かどうかを検討する。
半合成データセットと予め特定された突発的アーティファクトを併用した経験的手法を設計する。
その結果,テスト時に破片が不明な場合には,ポストホックな説明法が有効でないことがわかった。
論文 参考訳(メタデータ) (2022-12-09T02:05:39Z) - Explainer Divergence Scores (EDS): Some Post-Hoc Explanations May be
Effective for Detecting Unknown Spurious Correlations [4.223964614888875]
ディープニューラルネット(DNN)における突発的相関の検出にはポストホック説明器が有効でない可能性がある
この設定には、既存の評価フレームワークに深刻な弱点があることが示されています。
本稿では,説明者評価のための情報理論アプローチに基づく新しい評価手法,EDS(Explainer Divergence Scores)を提案する。
論文 参考訳(メタデータ) (2022-11-14T15:52:21Z) - Discriminative Attribution from Counterfactuals [64.94009515033984]
本稿では,特徴属性と反実的説明を組み合わせたニューラルネットワークの解釈可能性について述べる。
本手法は,特徴属性法の性能を客観的に評価するために有効であることを示す。
論文 参考訳(メタデータ) (2021-09-28T00:53:34Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Have We Learned to Explain?: How Interpretability Methods Can Learn to
Encode Predictions in their Interpretations [20.441578071446212]
解釈を定量的に評価する手法としてEVAL-X、償却説明法としてREAL-Xを紹介します。
EVAL-Xは、予測が解釈にエンコードされたときに検出でき、定量的および放射線学者評価を通じてREAL-Xの利点を示す。
論文 参考訳(メタデータ) (2021-03-02T17:42:33Z) - Evaluating Explainable AI: Which Algorithmic Explanations Help Users
Predict Model Behavior? [97.77183117452235]
我々は、モデル解釈性に対するアルゴリズム的説明の影響を分離するために、人体テストを実施している。
方法の有効性の明確な証拠はごく少数にみえる。
以上の結果から,説明がシミュラビリティにどのように影響するかの信頼性と包括的評価が得られた。
論文 参考訳(メタデータ) (2020-05-04T20:35:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。