論文の概要: Attribution Patching Outperforms Automated Circuit Discovery
- arxiv url: http://arxiv.org/abs/2310.10348v2
- Date: Mon, 20 Nov 2023 11:31:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 17:33:41.320179
- Title: Attribution Patching Outperforms Automated Circuit Discovery
- Title(参考訳): 帰属パッチは自動回路発見に勝る
- Authors: Aaquib Syed, Can Rager, Arthur Conmy
- Abstract要約: 帰属パッチに基づく単純な手法が,既存の手法よりも優れていることを示す。
演算サブグラフにおける各エッジの重要性を推定するために、線形近似をアクティベーションパッチに適用する。
- 参考スコア(独自算出の注目度): 3.8695554579762814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated interpretability research has recently attracted attention as a
potential research direction that could scale explanations of neural network
behavior to large models. Existing automated circuit discovery work applies
activation patching to identify subnetworks responsible for solving specific
tasks (circuits). In this work, we show that a simple method based on
attribution patching outperforms all existing methods while requiring just two
forward passes and a backward pass. We apply a linear approximation to
activation patching to estimate the importance of each edge in the
computational subgraph. Using this approximation, we prune the least important
edges of the network. We survey the performance and limitations of this method,
finding that averaged over all tasks our method has greater AUC from circuit
recovery than other methods.
- Abstract(参考訳): 自動解釈可能性の研究は、ニューラルネットワークの振る舞いを大規模モデルに拡張する研究の方向性として、最近注目を集めている。
既存の自動回路発見作業では、アクティベーションパッチを適用して特定のタスク(回路)を解決するサブネットワークを特定する。
本研究では,属性パッチに基づく単純な手法が,2つの前方パスと1つの後方パスを必要としながら,既存のすべての手法より優れていることを示す。
アクティベーションパッチングに線形近似を適用し,計算サブグラフにおける各エッジの重要性を推定する。
この近似を用いて、ネットワークの最も重要でないエッジを推定する。
我々は,本手法の性能と限界を調査し,我々の手法が回路回復からAUCが他の手法よりも大きいことを確かめた。
関連論文リスト
- Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文 参考訳(メタデータ) (2024-07-11T17:59:00Z) - Functional Faithfulness in the Wild: Circuit Discovery with Differentiable Computation Graph Pruning [14.639036250438517]
本稿では、DiscoGPとともにCircuit Discoveryと呼ばれるタスクを包括的に再構築する。
DiscoGPは、回路発見のための識別可能なマスキングに基づく、新しく効果的なアルゴリズムである。
論文 参考訳(メタデータ) (2024-07-04T09:42:25Z) - Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文 参考訳(メタデータ) (2024-06-24T16:40:54Z) - Towards Automated Circuit Discovery for Mechanistic Interpretability [7.605075513099429]
本稿では,それに続く機械的解釈可能性プロセスの体系化について述べる。
調査中のデータセット、メトリック、ユニットを変えることで、研究者は各コンポーネントの機能を理解することができる。
本稿では,いくつかのアルゴリズムを提案し,それを検証するために過去の解釈可能性の結果を再現する。
論文 参考訳(メタデータ) (2023-04-28T17:36:53Z) - Unsupervised Learning of Initialization in Deep Neural Networks via
Maximum Mean Discrepancy [74.34895342081407]
本稿では,入力データに対する優れた初期化を求めるための教師なしアルゴリズムを提案する。
まず、パラメータ空間における各パラメータ構成が、d-way分類の特定の下流タスクに対応することに気付く。
次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
論文 参考訳(メタデータ) (2023-02-08T23:23:28Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - Data-efficient Weakly-supervised Learning for On-line Object Detection
under Domain Shift in Robotics [24.878465999976594]
文献では、Deep Convolutional Neural Networks (DCNNs)に基づく多数のオブジェクト検出方法が提案されている。
これらの手法はロボティクスに重要な制限がある:オフラインデータのみに学習するとバイアスが発生し、新しいタスクへの適応を防ぐことができる。
本研究では,弱い教師付き学習がこれらの問題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2020-12-28T16:36:11Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。