論文の概要: Toward Understanding the Disagreement Problem in Neural Network Feature Attribution
- arxiv url: http://arxiv.org/abs/2404.11330v1
- Date: Wed, 17 Apr 2024 12:45:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 14:04:48.459927
- Title: Toward Understanding the Disagreement Problem in Neural Network Feature Attribution
- Title(参考訳): ニューラルネットワーク特徴属性の分解問題の理解に向けて
- Authors: Niklas Koenen, Marvin N. Wright,
- Abstract要約: ニューラルネットワークは 複雑なパターンと関係を 生のデータから識別する
これらのブラックボックスモデルの内部動作を理解することは、依然として難しいが、高い意思決定には不可欠である。
我々の研究は、説明の基本的な、分布的な振る舞いを調査することによって、この混乱に対処する。
- 参考スコア(独自算出の注目度): 0.8057006406834466
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In recent years, neural networks have demonstrated their remarkable ability to discern intricate patterns and relationships from raw data. However, understanding the inner workings of these black box models remains challenging, yet crucial for high-stake decisions. Among the prominent approaches for explaining these black boxes are feature attribution methods, which assign relevance or contribution scores to each input variable for a model prediction. Despite the plethora of proposed techniques, ranging from gradient-based to backpropagation-based methods, a significant debate persists about which method to use. Various evaluation metrics have been proposed to assess the trustworthiness or robustness of their results. However, current research highlights disagreement among state-of-the-art methods in their explanations. Our work addresses this confusion by investigating the explanations' fundamental and distributional behavior. Additionally, through a comprehensive simulation study, we illustrate the impact of common scaling and encoding techniques on the explanation quality, assess their efficacy across different effect sizes, and demonstrate the origin of inconsistency in rank-based evaluation metrics.
- Abstract(参考訳): 近年、ニューラルネットワークは、複雑なパターンや関係を生データから識別する顕著な能力を示している。
しかし、これらのブラックボックスモデルの内部動作を理解することは依然として困難でありながら、高い意思決定には不可欠である。
これらのブラックボックスを説明するための顕著なアプローチは、モデル予測のために各入力変数に関連性や貢献スコアを割り当てる特徴属性法である。
勾配に基づく手法からバックプロパゲーションに基づく手法まで、提案された手法の多さにもかかわらず、どの手法を使うべきかという重要な議論が続いている。
結果の信頼性や堅牢性を評価するために,様々な評価指標が提案されている。
しかし、現在の研究は、彼らの説明における最先端の手法の相違を浮き彫りにしている。
我々の研究は、説明の基本的な、分布的な振る舞いを調査することによって、この混乱に対処する。
さらに、包括的シミュレーション研究を通じて、一般的なスケーリングとエンコーディング技術が説明品質に与える影響を説明し、その効果を異なる効果サイズで評価し、ランクに基づく評価指標における矛盾の原因を実証する。
関連論文リスト
- Understanding Disparities in Post Hoc Machine Learning Explanation [2.965442487094603]
従来の研究では、既存のポストホックな説明法は説明の忠実度に相違があることが強調されている(「レース」と「ジェンダー」は敏感な属性である)。
データの性質から生じる格差を説明するための課題を特に評価する。
結果は、モデル説明の相違はデータやモデルの性質にも依存できることを示している。
論文 参考訳(メタデータ) (2024-01-25T22:09:28Z) - Benchmarking Bayesian Causal Discovery Methods for Downstream Treatment
Effect Estimation [137.3520153445413]
下流推論に重点を置く因果発見手法の評価において,顕著なギャップが存在する。
我々は,GFlowNetsに基づく新たな手法を含む,確立された7つの基本因果探索手法を評価する。
研究の結果,研究対象のアルゴリズムのいくつかは,多種多様なATEモードを効果的に捉えることができることがわかった。
論文 参考訳(メタデータ) (2023-07-11T02:58:10Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - EvalAttAI: A Holistic Approach to Evaluating Attribution Maps in Robust
and Non-Robust Models [0.3425341633647624]
本稿では、ロバストニューラルネットワークがより説明しやすいかどうかを調べるために、属性マッピングの評価方法に焦点を当てる。
従来の指標の限界に対処する新しい説明可能性忠実度指標(EvalAttAI)を提案する。
論文 参考訳(メタデータ) (2023-03-15T18:33:22Z) - On The Coherence of Quantitative Evaluation of Visual Explanations [0.7212939068975619]
視覚的説明の「良さ」を評価するための評価手法が提案されている。
我々はImageNet-1k検証セットのサブセットについて検討し、多くの一般的な説明手法を評価した。
本研究の結果から, 評価方法のいくつかは, 階調のコヒーレンシーが欠如していることが示唆された。
論文 参考訳(メタデータ) (2023-02-14T13:41:57Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - Discriminative Attribution from Counterfactuals [64.94009515033984]
本稿では,特徴属性と反実的説明を組み合わせたニューラルネットワークの解釈可能性について述べる。
本手法は,特徴属性法の性能を客観的に評価するために有効であることを示す。
論文 参考訳(メタデータ) (2021-09-28T00:53:34Z) - On the Objective Evaluation of Post Hoc Explainers [10.981508361941335]
機械学習研究の最近の傾向は、それらがブラックボックスであると考えられる程度に、ますます複雑化しているアルゴリズムにつながっている。
意思決定の不透明度を低減するため、そのようなモデルの内部動作を人間に理解可能な方法で解釈する手法が提案されている。
本稿では,モデルの加法構造から直接導出される地底真理に基づくポストホック説明器の評価のための枠組みを提案する。
論文 参考訳(メタデータ) (2021-06-15T19:06:51Z) - A Diagnostic Study of Explainability Techniques for Text Classification [52.879658637466605]
既存の説明可能性技術を評価するための診断特性のリストを作成する。
そこで本研究では, モデルの性能と有理性との整合性の関係を明らかにするために, 説明可能性手法によって割り当てられた有理性スコアと有理性入力領域の人間のアノテーションを比較した。
論文 参考訳(メタデータ) (2020-09-25T12:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。