論文の概要: Generalizing Backpropagation for Gradient-Based Interpretability
- arxiv url: http://arxiv.org/abs/2307.03056v1
- Date: Thu, 6 Jul 2023 15:19:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 13:35:40.086071
- Title: Generalizing Backpropagation for Gradient-Based Interpretability
- Title(参考訳): 勾配に基づく解釈可能性のためのバックプロパゲーションの一般化
- Authors: Kevin Du, Lucas Torroba Hennigen, Niklas Stoehr, Alexander Warstadt,
Ryan Cotterell
- Abstract要約: モデルの勾配は、半環を用いたより一般的な定式化の特別な場合であることを示す。
この観測により、バックプロパゲーションアルゴリズムを一般化し、他の解釈可能な統計を効率的に計算することができる。
- 参考スコア(独自算出の注目度): 103.2998254573497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many popular feature-attribution methods for interpreting deep neural
networks rely on computing the gradients of a model's output with respect to
its inputs. While these methods can indicate which input features may be
important for the model's prediction, they reveal little about the inner
workings of the model itself. In this paper, we observe that the gradient
computation of a model is a special case of a more general formulation using
semirings. This observation allows us to generalize the backpropagation
algorithm to efficiently compute other interpretable statistics about the
gradient graph of a neural network, such as the highest-weighted path and
entropy. We implement this generalized algorithm, evaluate it on synthetic
datasets to better understand the statistics it computes, and apply it to study
BERT's behavior on the subject-verb number agreement task (SVA). With this
method, we (a) validate that the amount of gradient flow through a component of
a model reflects its importance to a prediction and (b) for SVA, identify which
pathways of the self-attention mechanism are most important.
- Abstract(参考訳): ディープニューラルネットワークを解釈するための多くの一般的な特徴属性法は、入力に対するモデルの出力の勾配の計算に依存する。
これらの手法はモデルの予測にどの入力特徴が重要であるかを示すことができるが、モデル自体の内部動作についてはほとんど明らかにしない。
本稿では,モデルの勾配計算が半環を用いたより一般的な定式化の特別な場合であることを示す。
この観測により、バックプロパゲーションアルゴリズムを一般化し、最も重み付きパスやエントロピーのようなニューラルネットワークの勾配グラフに関する他の解釈可能な統計を効率的に計算することができる。
本稿では、この一般化アルゴリズムを実装し、計算した統計をよりよく理解するために合成データセット上で評価し、SVAにおけるBERTの挙動の研究に応用する。
この方法により、我々は
(a)モデルの構成要素を流れる勾配の量は、その予測の重要性を反映していることを検証する。
b) 自己保持機構のどの経路が最も重要であるかを特定する。
関連論文リスト
- Rethinking interpretation: Input-agnostic saliency mapping of deep
visual classifiers [28.28834523468462]
Saliencyメソッドは、入力特徴をモデル出力に寄与させることで、ポストホックモデルの解釈を提供する。
入力特異性マッピングは本質的に誤解を招く特徴の帰属に影響を受けやすいことを示す。
本稿では,モデルが持つ高次特徴をその出力に対して計算的に推定する,入力非依存のサリエンシマッピングの新たな視点を紹介する。
論文 参考訳(メタデータ) (2023-03-31T06:58:45Z) - Correcting Model Bias with Sparse Implicit Processes [0.9187159782788579]
SIP(Sparse Implicit Processes)は,データ生成機構がモデルによって入力されるものと強く異なる場合,モデルバイアスを補正できることを示す。
合成データセットを用いて、SIPは、初期推定モデルの正確な予測よりもデータをよりよく反映する予測分布を提供することができることを示す。
論文 参考訳(メタデータ) (2022-07-21T18:00:01Z) - Invariant Causal Mechanisms through Distribution Matching [86.07327840293894]
本研究では、因果的視点と不変表現を学習するための新しいアルゴリズムを提供する。
実験により,このアルゴリズムは様々なタスク群でうまく動作し,特にドメインの一般化における最先端のパフォーマンスを観察する。
論文 参考訳(メタデータ) (2022-06-23T12:06:54Z) - Scalable computation of prediction intervals for neural networks via
matrix sketching [79.44177623781043]
既存の不確実性推定アルゴリズムでは、モデルアーキテクチャとトレーニング手順を変更する必要がある。
本研究では、与えられたトレーニングされたニューラルネットワークに適用し、近似予測間隔を生成できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-06T13:18:31Z) - Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。
提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。
いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-12-15T01:45:32Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Integrated Grad-CAM: Sensitivity-Aware Visual Explanation of Deep
Convolutional Networks via Integrated Gradient-Based Scoring [26.434705114982584]
Grad-CAMは、モデルから得られたアクティベーションマップを組み合わせて視覚化する一般的なソリューションである。
Grad-CAMのグラデーションベース項のパス積分を計算することで、この問題に取り組むソリューションを紹介します。
CNNの予測のために抽出された表現の重要性を計測する手法で達成した改善を徹底した分析を行います。
論文 参考訳(メタデータ) (2021-02-15T19:21:46Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - SODEN: A Scalable Continuous-Time Survival Model through Ordinary
Differential Equation Networks [14.564168076456822]
本稿では、ニューラルネットワークとスケーラブルな最適化アルゴリズムを用いた生存分析のためのフレキシブルモデルを提案する。
提案手法の有効性を,既存の最先端ディープラーニングサバイバル分析モデルと比較した。
論文 参考訳(メタデータ) (2020-08-19T19:11:25Z) - Relative gradient optimization of the Jacobian term in unsupervised deep
learning [9.385902422987677]
データを正しく記述した表現的確率モデルを学習することは、機械学習におけるユビキタスな問題である。
このタスクには深度モデルが広く使用されているが、その最大可能性に基づくトレーニングでは、ジャコビアンの対数行列式を推定する必要がある。
このようなニューラルネットワークの正確なトレーニングのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-26T16:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。