論文の概要: RelP: Faithful and Efficient Circuit Discovery via Relevance Patching
- arxiv url: http://arxiv.org/abs/2508.21258v1
- Date: Thu, 28 Aug 2025 23:09:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.898809
- Title: RelP: Faithful and Efficient Circuit Discovery via Relevance Patching
- Title(参考訳): RelP: 関連パッチによる忠実で効率的な回路発見
- Authors: Farnoush Rezaei Jafari, Oliver Eberle, Ashkan Khakzar, Neel Nanda,
- Abstract要約: 帰属パッチの局所勾配を伝搬係数に置き換えるRelP(Relevance Patching)を導入する。
RelPは2つの前方パスと1つの後方パスしか必要とせず、忠実さを改善しながら計算効率を維持する。
我々はRelPを様々なモデルやタスクで検証し、標準属性パッチよりも正確にアクティベーションパッチを近似することを示した。
- 参考スコア(独自算出の注目度): 16.22015078953355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activation patching is a standard method in mechanistic interpretability for localizing the components of a model responsible for specific behaviors, but it is computationally expensive to apply at scale. Attribution patching offers a faster, gradient-based approximation, yet suffers from noise and reduced reliability in deep, highly non-linear networks. In this work, we introduce Relevance Patching (RelP), which replaces the local gradients in attribution patching with propagation coefficients derived from Layer-wise Relevance Propagation (LRP). LRP propagates the network's output backward through the layers, redistributing relevance to lower-level components according to local propagation rules that ensure properties such as relevance conservation or improved signal-to-noise ratio. Like attribution patching, RelP requires only two forward passes and one backward pass, maintaining computational efficiency while improving faithfulness. We validate RelP across a range of models and tasks, showing that it more accurately approximates activation patching than standard attribution patching, particularly when analyzing residual stream and MLP outputs in the Indirect Object Identification (IOI) task. For instance, for MLP outputs in GPT-2 Large, attribution patching achieves a Pearson correlation of 0.006, whereas RelP reaches 0.956, highlighting the improvement offered by RelP. Additionally, we compare the faithfulness of sparse feature circuits identified by RelP and Integrated Gradients (IG), showing that RelP achieves comparable faithfulness without the extra computational cost associated with IG.
- Abstract(参考訳): アクティベーションパッチング(Activation patching)は、特定の振る舞いに責任のあるモデルのコンポーネントをローカライズするための機械論的解釈可能性の標準的な手法であるが、大規模に適用するには計算コストがかかる。
属性パッチはより高速で勾配に基づく近似を提供するが、深い非線形ネットワークではノイズと信頼性の低下に悩まされる。
本稿では、帰属パッチの局所勾配をレイヤワイド・レバレンス・プロパゲーション(LRP)から導出される伝搬係数に置き換えるRelevance Patching(RelP)を提案する。
LRPは、レイヤを通してネットワークの出力を後方に伝播し、関連性保護や信号対雑音比の改善などの特性を保証するローカルな伝搬規則に従って下位のコンポーネントに関連性を再分配する。
帰属パッチのように、RelPは2つの前方パスと1つの後方パスしか必要とせず、忠実さを改善しながら計算効率を維持する。
Indirect Object Identification (IOI) タスクにおける残ストリームおよびMLP出力の分析において,RelP が標準属性パッチよりも正確にアクティベーションパッチを近似することを示す。
例えば、GPT-2 の MLP 出力の場合、帰属パッチは Pearson の 0.006 の相関を達成し、RelP は 0.956 に達し、RelP がもたらす改善を強調している。
さらに、RelPとIG(Integrated Gradients)によって同定されたスパース特徴回路の忠実度を比較し、RelPがIGに付随する余分な計算コストを伴わずに同等の忠実度を達成することを示す。
関連論文リスト
- Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability [53.21677928601684]
階層的関連性伝播は、ディープラーニングにおける説明可能性に対する最も有望なアプローチの1つである。
そこで我々は,様々な位置符号化手法にまたがる属性の伝播を目的とした,理論的なLRP規則を提案する。
本手法は,視力とNLP説明可能性の両面において,最先端の課題を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-02T18:07:55Z) - EAP-GP: Mitigating Saturation Effect in Gradient-based Automated Circuit Identification [62.611812892924156]
飽和効果に対応するために,GradPath (EAP-GP) を用いたエッジパッチを提案する。
EAP-GPは、入力から始まり、飽和領域を避けるために、破損した入力とクリーン入力の勾配の違いの方向を適応的に追従する積分経路を導入する。
GPT-2 Small, GPT-2 Medium, GPT-2 XL を用いた6つのデータセットの EAP-GP の評価を行った。
論文 参考訳(メタデータ) (2025-02-07T16:04:57Z) - LLM-BIP: Structured Pruning for Large Language Models with Block-Wise Forward Importance Propagation [0.0]
ブロック単位の重要スコアの伝搬に基づくより正確なプルーニング指標を提案する。
我々は,LLaMA-7B,Vicuna-7B,LLaMA-13Bを用いて,共通ゼロショットタスクを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-12-09T11:57:16Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - SWAP: Sparse Entropic Wasserstein Regression for Robust Network Pruning [9.60349706518775]
本研究では,ニューラルネットワークプルーニングにおける経験的漁獲情報行列の計算における不正確な勾配問題に対処する。
本稿では,最適輸送問題の幾何学的特性を活かした,エントロピー的ワッサースタイン回帰(EWR)の定式化であるSWAPを紹介する。
提案手法は,ネットワークパラメータの4分の1未満のMobileNetV1において,精度が6%向上し,テスト損失が8%向上した。
論文 参考訳(メタデータ) (2023-10-07T21:15:32Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。
LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Improving Deep Policy Gradients with Value Function Search [21.18135854494779]
本稿では、値近似の改善とDeep PGプリミティブへの影響の分析に焦点をあてる。
本稿では,より優れた近似を求めるために,摂動値ネットワークの集団を用いた値関数探索を提案する。
我々のフレームワークは、追加の環境相互作用、勾配計算、アンサンブルを必要としない。
論文 参考訳(メタデータ) (2023-02-20T18:23:47Z) - PEP: Parameter Ensembling by Perturbation [13.221295194854642]
摂動(PEP)は、トレーニングから設定された最適パラメータのランダム摂動としてパラメータ値のアンサンブルを構成する。
PEPは性能を少し改善し、場合によっては経験的キャリブレーションを大幅に改善する。
PEPは、トレーニング中に発生したオーバーフィッティングのレベルを調査するために使用することができる。
論文 参考訳(メタデータ) (2020-10-24T00:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。