論文の概要: Rethinking the Role of Gradient-Based Attribution Methods for Model
Interpretability
- arxiv url: http://arxiv.org/abs/2006.09128v2
- Date: Wed, 3 Mar 2021 09:42:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 18:52:28.138828
- Title: Rethinking the Role of Gradient-Based Attribution Methods for Model
Interpretability
- Title(参考訳): モデル解釈可能性に対するグラディエント型属性法の役割の再考
- Authors: Suraj Srinivas, Francois Fleuret
- Abstract要約: 差別的なディープニューラルネットワークの解釈可能性の現在の方法は、モデルの入力勾配に依存する。
判別関数を変更することなく、これらの入力勾配を任意に操作できることが示される。
- 参考スコア(独自算出の注目度): 8.122270502556374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current methods for the interpretability of discriminative deep neural
networks commonly rely on the model's input-gradients, i.e., the gradients of
the output logits w.r.t. the inputs. The common assumption is that these
input-gradients contain information regarding $p_{\theta} ( y \mid x)$, the
model's discriminative capabilities, thus justifying their use for
interpretability. However, in this work we show that these input-gradients can
be arbitrarily manipulated as a consequence of the shift-invariance of softmax
without changing the discriminative function. This leaves an open question: if
input-gradients can be arbitrary, why are they highly structured and
explanatory in standard models?
We investigate this by re-interpreting the logits of standard softmax-based
classifiers as unnormalized log-densities of the data distribution and show
that input-gradients can be viewed as gradients of a class-conditional density
model $p_{\theta}(x \mid y)$ implicit within the discriminative model. This
leads us to hypothesize that the highly structured and explanatory nature of
input-gradients may be due to the alignment of this class-conditional model
$p_{\theta}(x \mid y)$ with that of the ground truth data distribution
$p_{\text{data}} (x \mid y)$. We test this hypothesis by studying the effect of
density alignment on gradient explanations. To achieve this alignment we use
score-matching, and propose novel approximations to this algorithm to enable
training large-scale models.
Our experiments show that improving the alignment of the implicit density
model with the data distribution enhances gradient structure and explanatory
power while reducing this alignment has the opposite effect. Overall, our
finding that input-gradients capture information regarding an implicit
generative model implies that we need to re-think their use for interpreting
discriminative models.
- Abstract(参考訳): 識別的深層ニューラルネットワークの解釈可能性に関する現在の手法は、一般的にモデルの入力勾配、すなわち入力の出力ロジットの勾配に依存する。
一般的な仮定は、これらの入力次数は$p_{\theta} ( y \mid)に関する情報を含むということである。
x)$,モデルの識別能力により,解釈可能性の使用が正当化される。
しかし,本研究では,ソフトマックスのシフト不変性が識別関数を変化させることなく任意に操作できることを示す。
入力勾配が任意であるなら、なぜそれらは標準モデルにおいて高度に構造化され説明できるのか?
標準ソフトマックス分類器のロジットをデータ分布の不正規化ログ密度として再解釈し、入力勾配をクラス条件密度モデル $p_{\theta}(x \mid) の勾配と見なせることを示す。
y)判別モデル内で暗黙的である。
これは、入力勾配の高度に構造化され説明可能な性質が、このクラス条件モデル $p_{\theta}(x \mid) のアラインメントによるかもしれないという仮定に繋がる。
y)$ with that of the ground truth data distribution $p_{\text{data}} (x \mid)
y) である。
勾配説明に対する密度アライメントの影響を調べた結果,この仮説を検証した。
このアライメントを実現するためにスコアマッチングを使用し、このアルゴリズムに新しい近似を提案し、大規模モデルのトレーニングを可能にする。
実験により,データ分布による暗黙密度モデルのアライメントの改善は,このアライメントを低減しつつ,勾配構造と説明力を高めることが示唆された。
全体として、入力勾配が暗黙の生成モデルに関する情報を捉えていることは、識別モデルの解釈にそれらの使用を再検討する必要があることを意味する。
関連論文リスト
- Black-Box Anomaly Attribution [13.455748795087493]
ブラックボックスの機械学習モデルが真の観察から逸脱したとき、その逸脱の背後にある理由について何を言えるだろうか?
これは、ビジネスまたは産業用AIアプリケーションのエンドユーザがよく問う、基本的でユビキタスな質問である。
「新たな可能性に基づく帰属の枠組みを「可能性補償」と呼ぶ。」
論文 参考訳(メタデータ) (2023-05-29T01:42:32Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - CEnt: An Entropy-based Model-agnostic Explainability Framework to
Contrast Classifiers' Decisions [2.543865489517869]
我々は任意の分類器の予測を局所的に対比する新しい手法を提案する。
コントラストエントロピーに基づく説明法CEntは、決定木によって局所的にモデルを近似し、異なる特徴分割のエントロピー情報を算出する。
CEntは、不変性(人種など)と半不変性(年齢が増加する方向にしか変化しない)を満足しながら、トレーニングデータに必ずしも存在しない多様な反事実を生成する最初の非漸進的コントラスト法である。
論文 参考訳(メタデータ) (2023-01-19T08:23:34Z) - The Manifold Hypothesis for Gradient-Based Explanations [55.01671263121624]
勾配に基づく説明アルゴリズムは知覚的に整合した説明を提供する。
特徴属性がデータの接する空間と一致しているほど、知覚的に一致している傾向にあることを示す。
説明アルゴリズムは、その説明をデータ多様体と整合させるよう積極的に努力すべきである。
論文 参考訳(メタデータ) (2022-06-15T08:49:24Z) - Discovering Invariant Rationales for Graph Neural Networks [104.61908788639052]
グラフニューラルネットワーク(GNN)の固有の解釈可能性とは、入力グラフの特徴の小さなサブセットを見つけることである。
本稿では,本質的に解釈可能なGNNを構築するために,不変理性(DIR)を発見するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2022-01-30T16:43:40Z) - Discrete Denoising Flows [87.44537620217673]
分類的確率変数に対する離散的フローベースモデル(DDF)を提案する。
他の離散フローベースモデルとは対照的に、我々のモデルは勾配バイアスを導入することなく局所的に訓練することができる。
そこで本研究では, DDFs が離散フローより優れていることを示し, 対数類似度で測定した2値MNIST と Cityscapes のセグメンテーションマップをモデル化した。
論文 参考訳(メタデータ) (2021-07-24T14:47:22Z) - Causality-based Counterfactual Explanation for Classification Models [11.108866104714627]
本稿では,プロトタイプに基づく対実的説明フレームワーク(ProCE)を提案する。
ProCEは、カウンターファクトデータの特徴の根底にある因果関係を保存することができる。
さらに,提案手法を応用した多目的遺伝的アルゴリズムを考案した。
論文 参考訳(メタデータ) (2021-05-03T09:25:59Z) - Why do classifier accuracies show linear trends under distribution
shift? [58.40438263312526]
あるデータ分布上のモデルの精度は、別の分布上の精度のほぼ線形関数である。
2つのモデルが予測で一致する確率は、精度レベルだけで推測できるものよりも高いと仮定します。
分布シフトの大きさが大きければ, 2 つの分布のモデルを評価する場合, 線形傾向が生じなければならない。
論文 参考訳(メタデータ) (2020-12-31T07:24:30Z) - How do Decisions Emerge across Layers in Neural Models? Interpretation
with Differentiable Masking [70.92463223410225]
DiffMaskは、差分性を維持しながら入力のサブセットをマスクアウトすることを学ぶ。
入力トークンを包含または無視する決定は、中間隠蔽層に基づく単純なモデルで行われる。
これにより、属性のヒートマップをプロットするだけでなく、ネットワーク層間で意思決定がどのように形成されるかを分析することができます。
論文 参考訳(メタデータ) (2020-04-30T17:36:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。