Fugu-MT 論文翻訳(概要): Attribution Patching Outperforms Automated Circuit Discovery

論文の概要: Attribution Patching Outperforms Automated Circuit Discovery

arxiv url: http://arxiv.org/abs/2310.10348v2
Date: Mon, 20 Nov 2023 11:31:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-22 17:33:41.320179
Title: Attribution Patching Outperforms Automated Circuit Discovery
Title（参考訳）: 帰属パッチは自動回路発見に勝る
Authors: Aaquib Syed, Can Rager, Arthur Conmy
Abstract要約: 帰属パッチに基づく単純な手法が,既存の手法よりも優れていることを示す。演算サブグラフにおける各エッジの重要性を推定するために、線形近似をアクティベーションパッチに適用する。
参考スコア（独自算出の注目度）: 3.8695554579762814
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated interpretability research has recently attracted attention as a potential research direction that could scale explanations of neural network behavior to large models. Existing automated circuit discovery work applies activation patching to identify subnetworks responsible for solving specific tasks (circuits). In this work, we show that a simple method based on attribution patching outperforms all existing methods while requiring just two forward passes and a backward pass. We apply a linear approximation to activation patching to estimate the importance of each edge in the computational subgraph. Using this approximation, we prune the least important edges of the network. We survey the performance and limitations of this method, finding that averaged over all tasks our method has greater AUC from circuit recovery than other methods.
Abstract（参考訳）: 自動解釈可能性の研究は、ニューラルネットワークの振る舞いを大規模モデルに拡張する研究の方向性として、最近注目を集めている。既存の自動回路発見作業では、アクティベーションパッチを適用して特定のタスク(回路)を解決するサブネットワークを特定する。本研究では,属性パッチに基づく単純な手法が,2つの前方パスと1つの後方パスを必要としながら,既存のすべての手法より優れていることを示す。アクティベーションパッチングに線形近似を適用し,計算サブグラフにおける各エッジの重要性を推定する。この近似を用いて、ネットワークの最も重要でないエッジを推定する。我々は,本手法の性能と限界を調査し,我々の手法が回路回復からAUCが他の手法よりも大きいことを確かめた。

関連論文リスト

Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文参考訳（メタデータ） (2024-07-11T17:59:00Z)
Functional Faithfulness in the Wild: Circuit Discovery with Differentiable Computation Graph Pruning [14.639036250438517]
本稿では、DiscoGPとともにCircuit Discoveryと呼ばれるタスクを包括的に再構築する。 DiscoGPは、回路発見のための識別可能なマスキングに基づく、新しく効果的なアルゴリズムである。
論文参考訳（メタデータ） (2024-07-04T09:42:25Z)
Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文参考訳（メタデータ） (2024-06-24T16:40:54Z)
Towards Automated Circuit Discovery for Mechanistic Interpretability [7.605075513099429]
本稿では,それに続く機械的解釈可能性プロセスの体系化について述べる。調査中のデータセット、メトリック、ユニットを変えることで、研究者は各コンポーネントの機能を理解することができる。本稿では,いくつかのアルゴリズムを提案し,それを検証するために過去の解釈可能性の結果を再現する。
論文参考訳（メタデータ） (2023-04-28T17:36:53Z)
Unsupervised Learning of Initialization in Deep Neural Networks via Maximum Mean Discrepancy [74.34895342081407]
本稿では,入力データに対する優れた初期化を求めるための教師なしアルゴリズムを提案する。まず、パラメータ空間における各パラメータ構成が、d-way分類の特定の下流タスクに対応することに気付く。次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
論文参考訳（メタデータ） (2023-02-08T23:23:28Z)
Reachable Polyhedral Marching (RPM): An Exact Analysis Tool for Deep-Learned Control Systems [11.93664682521114]
我々は、rerectified Unit (ReLU) アクティベーションを備えたフィードフォワードニューラルネットワークに注目した。本稿では,アフィン領域の増分および連結を利用したROA計算アルゴリズムを提案する。最後に,航空機の滑走路制御問題に対する画像ベース制御器によって安定化された状態の集合を見つけるために,本手法を適用した。
論文参考訳（メタデータ） (2022-10-15T17:15:53Z)
Stabilizing Q-learning with Linear Architectures for Provably Efficient Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文参考訳（メタデータ） (2022-06-01T23:26:51Z)
MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。正規化最大度(NML)分布の計算法を提案する。得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文参考訳（メタデータ） (2021-07-15T08:19:57Z)
Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文参考訳（メタデータ） (2021-03-10T03:59:03Z)
Data-efficient Weakly-supervised Learning for On-line Object Detection under Domain Shift in Robotics [24.878465999976594]
文献では、Deep Convolutional Neural Networks (DCNNs)に基づく多数のオブジェクト検出方法が提案されている。これらの手法はロボティクスに重要な制限がある:オフラインデータのみに学習するとバイアスが発生し、新しいタスクへの適応を防ぐことができる。本研究では,弱い教師付き学習がこれらの問題にどのように対処できるかを検討する。
論文参考訳（メタデータ） (2020-12-28T16:36:11Z)
Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文参考訳（メタデータ） (2020-10-24T21:35:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。