Fugu-MT 論文翻訳(概要): Generalizing Backpropagation for Gradient-Based Interpretability

論文の概要: Generalizing Backpropagation for Gradient-Based Interpretability

arxiv url: http://arxiv.org/abs/2307.03056v1
Date: Thu, 6 Jul 2023 15:19:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-07 13:35:40.086071
Title: Generalizing Backpropagation for Gradient-Based Interpretability
Title（参考訳）: 勾配に基づく解釈可能性のためのバックプロパゲーションの一般化
Authors: Kevin Du, Lucas Torroba Hennigen, Niklas Stoehr, Alexander Warstadt, Ryan Cotterell
Abstract要約: モデルの勾配は、半環を用いたより一般的な定式化の特別な場合であることを示す。この観測により、バックプロパゲーションアルゴリズムを一般化し、他の解釈可能な統計を効率的に計算することができる。
参考スコア（独自算出の注目度）: 103.2998254573497
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many popular feature-attribution methods for interpreting deep neural networks rely on computing the gradients of a model's output with respect to its inputs. While these methods can indicate which input features may be important for the model's prediction, they reveal little about the inner workings of the model itself. In this paper, we observe that the gradient computation of a model is a special case of a more general formulation using semirings. This observation allows us to generalize the backpropagation algorithm to efficiently compute other interpretable statistics about the gradient graph of a neural network, such as the highest-weighted path and entropy. We implement this generalized algorithm, evaluate it on synthetic datasets to better understand the statistics it computes, and apply it to study BERT's behavior on the subject-verb number agreement task (SVA). With this method, we (a) validate that the amount of gradient flow through a component of a model reflects its importance to a prediction and (b) for SVA, identify which pathways of the self-attention mechanism are most important.
Abstract（参考訳）: ディープニューラルネットワークを解釈するための多くの一般的な特徴属性法は、入力に対するモデルの出力の勾配の計算に依存する。これらの手法はモデルの予測にどの入力特徴が重要であるかを示すことができるが、モデル自体の内部動作についてはほとんど明らかにしない。本稿では,モデルの勾配計算が半環を用いたより一般的な定式化の特別な場合であることを示す。この観測により、バックプロパゲーションアルゴリズムを一般化し、最も重み付きパスやエントロピーのようなニューラルネットワークの勾配グラフに関する他の解釈可能な統計を効率的に計算することができる。本稿では、この一般化アルゴリズムを実装し、計算した統計をよりよく理解するために合成データセット上で評価し、SVAにおけるBERTの挙動の研究に応用する。この方法により、我々は (a)モデルの構成要素を流れる勾配の量は、その予測の重要性を反映していることを検証する。 b) 自己保持機構のどの経路が最も重要であるかを特定する。

関連論文リスト

Statistically guided deep learning [10.619901778151336]
非パラメトリック回帰のための理論的に確立されたディープラーニングアルゴリズムを提案する。本研究では、最適化、一般化、近似を同時に考慮したディープラーニングの理論解析により、新たなディープラーニング推定結果が得られることを示す。
論文参考訳（メタデータ） (2025-04-11T12:36:06Z)
Reliable and scalable variable importance estimation via warm-start and early stopping [8.870380386952993]
我々は,反復的なカーネル更新方程式として表現できる任意のアルゴリズムに対して,変数の重要度を推定するスケーラブルな手法を開発した。ニューラルネットワークのカーネルベースの手法を早期に停止する理論を用いて理論的保証を行う。
論文参考訳（メタデータ） (2024-12-02T04:45:10Z)
Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文参考訳（メタデータ） (2024-11-02T07:06:53Z)
Sub-graph Based Diffusion Model for Link Prediction [43.15741675617231]
拡散確率モデル(Denoising Diffusion Probabilistic Models, DDPM)は、例外的な品質を持つ同時代の生成モデルである。本研究では,ベイズ式による確率推定過程を分解するために,専用設計を用いたリンク予測のための新しい生成モデルを構築した。提案手法は,(1)再トレーニングを伴わないデータセット間の転送可能性,(2)限られたトレーニングデータに対する有望な一般化,(3)グラフ敵攻撃に対する堅牢性など,多くの利点を示す。
論文参考訳（メタデータ） (2024-09-13T02:23:55Z)
Estimating Causal Effects from Learned Causal Networks [56.14597641617531]
本稿では、離散可観測変数に対する因果影響クエリに応答する代替パラダイムを提案する。観測データから直接因果ベイズネットワークとその共起潜伏変数を学習する。本手法は, 推定手法よりも有効であることを示す。
論文参考訳（メタデータ） (2024-08-26T08:39:09Z)
Correcting Model Bias with Sparse Implicit Processes [0.9187159782788579]
SIP(Sparse Implicit Processes)は,データ生成機構がモデルによって入力されるものと強く異なる場合,モデルバイアスを補正できることを示す。合成データセットを用いて、SIPは、初期推定モデルの正確な予測よりもデータをよりよく反映する予測分布を提供することができることを示す。
論文参考訳（メタデータ） (2022-07-21T18:00:01Z)
Scalable computation of prediction intervals for neural networks via matrix sketching [79.44177623781043]
既存の不確実性推定アルゴリズムでは、モデルアーキテクチャとトレーニング手順を変更する必要がある。本研究では、与えられたトレーニングされたニューラルネットワークに適用し、近似予測間隔を生成できる新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-06T13:18:31Z)
Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文参考訳（メタデータ） (2021-12-15T01:45:32Z)
Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文参考訳（メタデータ） (2021-07-05T12:44:39Z)
Integrated Grad-CAM: Sensitivity-Aware Visual Explanation of Deep Convolutional Networks via Integrated Gradient-Based Scoring [26.434705114982584]
Grad-CAMは、モデルから得られたアクティベーションマップを組み合わせて視覚化する一般的なソリューションである。 Grad-CAMのグラデーションベース項のパス積分を計算することで、この問題に取り組むソリューションを紹介します。 CNNの予測のために抽出された表現の重要性を計測する手法で達成した改善を徹底した分析を行います。
論文参考訳（メタデータ） (2021-02-15T19:21:46Z)
Goal-directed Generation of Discrete Structures with Conditional Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文参考訳（メタデータ） (2020-10-05T20:03:13Z)
SODEN: A Scalable Continuous-Time Survival Model through Ordinary Differential Equation Networks [14.564168076456822]
本稿では、ニューラルネットワークとスケーラブルな最適化アルゴリズムを用いた生存分析のためのフレキシブルモデルを提案する。提案手法の有効性を,既存の最先端ディープラーニングサバイバル分析モデルと比較した。
論文参考訳（メタデータ） (2020-08-19T19:11:25Z)
Relative gradient optimization of the Jacobian term in unsupervised deep learning [9.385902422987677]
データを正しく記述した表現的確率モデルを学習することは、機械学習におけるユビキタスな問題である。このタスクには深度モデルが広く使用されているが、その最大可能性に基づくトレーニングでは、ジャコビアンの対数行列式を推定する必要がある。このようなニューラルネットワークの正確なトレーニングのための新しいアプローチを提案する。
論文参考訳（メタデータ） (2020-06-26T16:41:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。