論文の概要: Generalizing Backpropagation for Gradient-Based Interpretability
- arxiv url: http://arxiv.org/abs/2307.03056v1
- Date: Thu, 6 Jul 2023 15:19:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 13:35:40.086071
- Title: Generalizing Backpropagation for Gradient-Based Interpretability
- Title(参考訳): 勾配に基づく解釈可能性のためのバックプロパゲーションの一般化
- Authors: Kevin Du, Lucas Torroba Hennigen, Niklas Stoehr, Alexander Warstadt,
Ryan Cotterell
- Abstract要約: モデルの勾配は、半環を用いたより一般的な定式化の特別な場合であることを示す。
この観測により、バックプロパゲーションアルゴリズムを一般化し、他の解釈可能な統計を効率的に計算することができる。
- 参考スコア(独自算出の注目度): 103.2998254573497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many popular feature-attribution methods for interpreting deep neural
networks rely on computing the gradients of a model's output with respect to
its inputs. While these methods can indicate which input features may be
important for the model's prediction, they reveal little about the inner
workings of the model itself. In this paper, we observe that the gradient
computation of a model is a special case of a more general formulation using
semirings. This observation allows us to generalize the backpropagation
algorithm to efficiently compute other interpretable statistics about the
gradient graph of a neural network, such as the highest-weighted path and
entropy. We implement this generalized algorithm, evaluate it on synthetic
datasets to better understand the statistics it computes, and apply it to study
BERT's behavior on the subject-verb number agreement task (SVA). With this
method, we (a) validate that the amount of gradient flow through a component of
a model reflects its importance to a prediction and (b) for SVA, identify which
pathways of the self-attention mechanism are most important.
- Abstract(参考訳): ディープニューラルネットワークを解釈するための多くの一般的な特徴属性法は、入力に対するモデルの出力の勾配の計算に依存する。
これらの手法はモデルの予測にどの入力特徴が重要であるかを示すことができるが、モデル自体の内部動作についてはほとんど明らかにしない。
本稿では,モデルの勾配計算が半環を用いたより一般的な定式化の特別な場合であることを示す。
この観測により、バックプロパゲーションアルゴリズムを一般化し、最も重み付きパスやエントロピーのようなニューラルネットワークの勾配グラフに関する他の解釈可能な統計を効率的に計算することができる。
本稿では、この一般化アルゴリズムを実装し、計算した統計をよりよく理解するために合成データセット上で評価し、SVAにおけるBERTの挙動の研究に応用する。
この方法により、我々は
(a)モデルの構成要素を流れる勾配の量は、その予測の重要性を反映していることを検証する。
b) 自己保持機構のどの経路が最も重要であるかを特定する。
関連論文リスト
- Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - Sub-graph Based Diffusion Model for Link Prediction [43.15741675617231]
拡散確率モデル(Denoising Diffusion Probabilistic Models, DDPM)は、例外的な品質を持つ同時代の生成モデルである。
本研究では,ベイズ式による確率推定過程を分解するために,専用設計を用いたリンク予測のための新しい生成モデルを構築した。
提案手法は,(1)再トレーニングを伴わないデータセット間の転送可能性,(2)限られたトレーニングデータに対する有望な一般化,(3)グラフ敵攻撃に対する堅牢性など,多くの利点を示す。
論文 参考訳(メタデータ) (2024-09-13T02:23:55Z) - Estimating Causal Effects from Learned Causal Networks [56.14597641617531]
本稿では、離散可観測変数に対する因果影響クエリに応答する代替パラダイムを提案する。
観測データから直接因果ベイズネットワークとその共起潜伏変数を学習する。
本手法は, 推定手法よりも有効であることを示す。
論文 参考訳(メタデータ) (2024-08-26T08:39:09Z) - Correcting Model Bias with Sparse Implicit Processes [0.9187159782788579]
SIP(Sparse Implicit Processes)は,データ生成機構がモデルによって入力されるものと強く異なる場合,モデルバイアスを補正できることを示す。
合成データセットを用いて、SIPは、初期推定モデルの正確な予測よりもデータをよりよく反映する予測分布を提供することができることを示す。
論文 参考訳(メタデータ) (2022-07-21T18:00:01Z) - Scalable computation of prediction intervals for neural networks via
matrix sketching [79.44177623781043]
既存の不確実性推定アルゴリズムでは、モデルアーキテクチャとトレーニング手順を変更する必要がある。
本研究では、与えられたトレーニングされたニューラルネットワークに適用し、近似予測間隔を生成できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-06T13:18:31Z) - Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。
提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。
いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-12-15T01:45:32Z) - Integrated Grad-CAM: Sensitivity-Aware Visual Explanation of Deep
Convolutional Networks via Integrated Gradient-Based Scoring [26.434705114982584]
Grad-CAMは、モデルから得られたアクティベーションマップを組み合わせて視覚化する一般的なソリューションである。
Grad-CAMのグラデーションベース項のパス積分を計算することで、この問題に取り組むソリューションを紹介します。
CNNの予測のために抽出された表現の重要性を計測する手法で達成した改善を徹底した分析を行います。
論文 参考訳(メタデータ) (2021-02-15T19:21:46Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - SODEN: A Scalable Continuous-Time Survival Model through Ordinary
Differential Equation Networks [14.564168076456822]
本稿では、ニューラルネットワークとスケーラブルな最適化アルゴリズムを用いた生存分析のためのフレキシブルモデルを提案する。
提案手法の有効性を,既存の最先端ディープラーニングサバイバル分析モデルと比較した。
論文 参考訳(メタデータ) (2020-08-19T19:11:25Z) - Relative gradient optimization of the Jacobian term in unsupervised deep
learning [9.385902422987677]
データを正しく記述した表現的確率モデルを学習することは、機械学習におけるユビキタスな問題である。
このタスクには深度モデルが広く使用されているが、その最大可能性に基づくトレーニングでは、ジャコビアンの対数行列式を推定する必要がある。
このようなニューラルネットワークの正確なトレーニングのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-26T16:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。