論文の概要: Explainer Divergence Scores (EDS): Some Post-Hoc Explanations May be
Effective for Detecting Unknown Spurious Correlations
- arxiv url: http://arxiv.org/abs/2211.07650v1
- Date: Mon, 14 Nov 2022 15:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 13:34:45.768078
- Title: Explainer Divergence Scores (EDS): Some Post-Hoc Explanations May be
Effective for Detecting Unknown Spurious Correlations
- Title(参考訳): 説明者発散スコア(eds) : 未知の散発的相関の検出に有効なポストホックな説明
- Authors: Shea Cardozo, Gabriel Islas Montero, Dmitry Kazhdan, Botty Dimanov,
Maleakhi Wijaya, Mateja Jamnik and Pietro Lio
- Abstract要約: ディープニューラルネット(DNN)における突発的相関の検出にはポストホック説明器が有効でない可能性がある
この設定には、既存の評価フレームワークに深刻な弱点があることが示されています。
本稿では,説明者評価のための情報理論アプローチに基づく新しい評価手法,EDS(Explainer Divergence Scores)を提案する。
- 参考スコア(独自算出の注目度): 4.223964614888875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has suggested post-hoc explainers might be ineffective for
detecting spurious correlations in Deep Neural Networks (DNNs). However, we
show there are serious weaknesses with the existing evaluation frameworks for
this setting. Previously proposed metrics are extremely difficult to interpret
and are not directly comparable between explainer methods. To alleviate these
constraints, we propose a new evaluation methodology, Explainer Divergence
Scores (EDS), grounded in an information theory approach to evaluate
explainers. EDS is easy to interpret and naturally comparable across
explainers. We use our methodology to compare the detection performance of
three different explainers - feature attribution methods, influential examples
and concept extraction, on two different image datasets. We discover post-hoc
explainers often contain substantial information about a DNN's dependence on
spurious artifacts, but in ways often imperceptible to human users. This
suggests the need for new techniques that can use this information to better
detect a DNN's reliance on spurious correlations.
- Abstract(参考訳): 最近の研究は、ディープニューラルネットワーク(dnn)のスプリアス相関を検出するのにポストホックな説明器が非有効であることを示唆している。
しかし,既存の評価フレームワークに重大な弱点があることは明らかである。
提案されているメトリクスは解釈が極めて困難であり、説明者メソッドと直接比較できない。
これらの制約を緩和するため,説明者評価のための情報理論アプローチを基礎とした新しい評価手法 Explainer Divergence Scores (EDS) を提案する。
EDSは簡単に解釈でき、説明者間で自然に匹敵する。
提案手法は,2つの異なる画像データセット上で,特徴属性法,影響例,概念抽出の3つの異なる説明器の検出性能を比較するために用いられる。
ポストホックな説明者は、しばしばdnnのスプリアスアーティファクトへの依存に関する実質的な情報を含んでいるが、人間のユーザには受け入れがたい。
これは、この情報を利用してdnnがスプリアス相関に依存することをより正確に検出できる新しい技術の必要性を示唆する。
関連論文リスト
- Rethinking Distance Metrics for Counterfactual Explainability [53.436414009687]
本研究では, 反事実を参照領域から独立して引き出すのではなく, 基礎となるデータ分布からの参照と共同してサンプリングする, 反事実生成手法のフレーミングについて検討する。
我々は、幅広い設定に適用可能な、反ファクト的な類似性のために調整された距離メートル法を導出する。
論文 参考訳(メタデータ) (2024-10-18T15:06:50Z) - Sparse Explanations of Neural Networks Using Pruned Layer-Wise Relevance Propagation [1.593690982728631]
本稿では,レイヤワイド・レバレンス・プロパゲーションに広く用いられている説明手法の修正について述べる。
提案手法は,各レイヤの関連伝搬を解析することにより,空間性を直接的に適用する。
この修正によってノイズの低減と,ベースラインと比較して重要な特徴の集中がもたらされることが示される。
論文 参考訳(メタデータ) (2024-04-22T15:16:59Z) - Diversified Outlier Exposure for Out-of-Distribution Detection via
Informative Extrapolation [110.34982764201689]
Out-of-Distribution(OOD)検出は、現実のアプリケーションに信頼性の高い機械学習モデルをデプロイするために重要である。
近年, 外部曝露によるOOD検出に有意な結果が得られた。
本稿では,補助外乱量に基づく情報外挿による効果的なOOD検出のための新しい枠組み,すなわちDivOE(Diversified Outlier Exposure)を提案する。
論文 参考訳(メタデータ) (2023-10-21T07:16:09Z) - Right for the Wrong Reason: Can Interpretable ML Techniques Detect
Spurious Correlations? [2.7558542803110244]
本稿では,素早い相関関係を正確に識別する説明手法の能力を評価するための厳密な評価手法を提案する。
ポストホックな手法であるSHAPと本質的に解釈可能なAttri-Netが最高のパフォーマンスを提供することがわかった。
論文 参考訳(メタデータ) (2023-07-23T14:43:17Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - Effective Explanations for Entity Resolution Models [21.518135952436975]
本研究では,ERの深層学習における説明可能性に関する基礎的問題について検討する。
本稿では,ER問題のセマンティクスを意識したCERTA手法を提案する。
我々は,公開データセットを用いたDLモデルに基づいて,CERTAによる最先端ERソリューションの説明を実験的に評価した。
論文 参考訳(メタデータ) (2022-03-24T10:50:05Z) - Benchmarking Deep Models for Salient Object Detection [67.07247772280212]
汎用SALOD(General SALient Object Detection)ベンチマークを構築し,複数のSOD手法の総合的な比較を行った。
以上の実験では、既存の損失関数は、通常いくつかの指標に特化しているが、他の指標には劣る結果が報告されている。
我々は,深層ネットワークに画素レベルと画像レベルの両方の監視信号を統合することにより,より識別的な特徴を学習するためのエッジ・アウェア・ロス(EA)を提案する。
論文 参考訳(メタデータ) (2022-02-07T03:43:16Z) - Coalitional Bayesian Autoencoders -- Towards explainable unsupervised
deep learning [78.60415450507706]
その結果,BAEの予測は高い相関関係にあり,誤解を招くことが示唆された。
これを軽減するために、エージェントベースのシステム理論にインスパイアされた"Coalitional BAE"が提案されている。
公開条件監視データセットに関する実験は、Coalitional BAEを用いた説明の質の向上を実証している。
論文 参考訳(メタデータ) (2021-10-19T15:07:09Z) - Discriminative Attribution from Counterfactuals [64.94009515033984]
本稿では,特徴属性と反実的説明を組み合わせたニューラルネットワークの解釈可能性について述べる。
本手法は,特徴属性法の性能を客観的に評価するために有効であることを示す。
論文 参考訳(メタデータ) (2021-09-28T00:53:34Z) - Unsupervised Detection of Adversarial Examples with Model Explanations [0.6091702876917279]
本稿では,モデル動作を説明するために開発された手法を用いて,逆例を検出するための簡易かつ効果的な手法を提案する。
MNIST手書きデータセットを用いて評価したところ,本手法は高い信頼度で敵のサンプルを検出することができることがわかった。
論文 参考訳(メタデータ) (2021-07-22T06:54:18Z) - Explainable Recommendation via Interpretable Feature Mapping and
Evaluation of Explainability [22.58823484394866]
実験結果は、推奨と説明の両方において強力なパフォーマンスを示し、メタデータの必要性を排除した。
本稿では,解釈不能な一般特徴を解釈不能な側面特徴にマッピングする新しい特徴マッピング手法を提案する。
論文 参考訳(メタデータ) (2020-07-12T23:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。