論文の概要: Attribution Patching Outperforms Automated Circuit Discovery
- arxiv url: http://arxiv.org/abs/2310.10348v2
- Date: Mon, 20 Nov 2023 11:31:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 17:33:41.320179
- Title: Attribution Patching Outperforms Automated Circuit Discovery
- Title(参考訳): 帰属パッチは自動回路発見に勝る
- Authors: Aaquib Syed, Can Rager, Arthur Conmy
- Abstract要約: 帰属パッチに基づく単純な手法が,既存の手法よりも優れていることを示す。
演算サブグラフにおける各エッジの重要性を推定するために、線形近似をアクティベーションパッチに適用する。
- 参考スコア(独自算出の注目度): 3.8695554579762814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated interpretability research has recently attracted attention as a
potential research direction that could scale explanations of neural network
behavior to large models. Existing automated circuit discovery work applies
activation patching to identify subnetworks responsible for solving specific
tasks (circuits). In this work, we show that a simple method based on
attribution patching outperforms all existing methods while requiring just two
forward passes and a backward pass. We apply a linear approximation to
activation patching to estimate the importance of each edge in the
computational subgraph. Using this approximation, we prune the least important
edges of the network. We survey the performance and limitations of this method,
finding that averaged over all tasks our method has greater AUC from circuit
recovery than other methods.
- Abstract(参考訳): 自動解釈可能性の研究は、ニューラルネットワークの振る舞いを大規模モデルに拡張する研究の方向性として、最近注目を集めている。
既存の自動回路発見作業では、アクティベーションパッチを適用して特定のタスク(回路)を解決するサブネットワークを特定する。
本研究では,属性パッチに基づく単純な手法が,2つの前方パスと1つの後方パスを必要としながら,既存のすべての手法より優れていることを示す。
アクティベーションパッチングに線形近似を適用し,計算サブグラフにおける各エッジの重要性を推定する。
この近似を用いて、ネットワークの最も重要でないエッジを推定する。
我々は,本手法の性能と限界を調査し,我々の手法が回路回復からAUCが他の手法よりも大きいことを確かめた。
関連論文リスト
- Towards Automated Circuit Discovery for Mechanistic Interpretability [7.605075513099429]
本稿では,それに続く機械的解釈可能性プロセスの体系化について述べる。
調査中のデータセット、メトリック、ユニットを変えることで、研究者は各コンポーネントの機能を理解することができる。
本稿では,いくつかのアルゴリズムを提案し,それを検証するために過去の解釈可能性の結果を再現する。
論文 参考訳(メタデータ) (2023-04-28T17:36:53Z) - Unsupervised Learning of Initialization in Deep Neural Networks via
Maximum Mean Discrepancy [74.34895342081407]
本稿では,入力データに対する優れた初期化を求めるための教師なしアルゴリズムを提案する。
まず、パラメータ空間における各パラメータ構成が、d-way分類の特定の下流タスクに対応することに気付く。
次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
論文 参考訳(メタデータ) (2023-02-08T23:23:28Z) - Backward Curriculum Reinforcement Learning [0.0]
現在の強化学習アルゴリズムは、前向きに生成された軌道を使ってエージェントを訓練する。
十分な探索から強化学習の価値を実現する一方で、このアプローチはサンプル効率を失う際のトレードオフにつながる。
本稿では,従来の前進路ではなく,後進路を用いてエージェントを訓練する新しい後進カリキュラム強化学習を提案する。
論文 参考訳(メタデータ) (2022-12-29T08:23:39Z) - Reachable Polyhedral Marching (RPM): An Exact Analysis Tool for
Deep-Learned Control Systems [20.595032143044506]
本稿では,直列線形ユニット(ReLU)をアクティベートしたディープニューラルネットワークの,前方および後方到達可能な正確な集合を計算するためのツールを提案する。
このツールを用いてアルゴリズムを開発し、フィードバックループ内のニューラルネットワークを持つ制御系に対する不変集合とアトラクション領域(ROA)を計算する。
論文 参考訳(メタデータ) (2022-10-15T17:15:53Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - DAAS: Differentiable Architecture and Augmentation Policy Search [107.53318939844422]
この研究は、ニューラルネットワークとデータ拡張のカップリングの可能性を検討し、それらを共同で検索する効果的なアルゴリズムを提案する。
CIFAR-10では97.91%、ImageNetデータセットでは76.6%の精度で97.91%の精度を達成し、検索アルゴリズムの優れた性能を示している。
論文 参考訳(メタデータ) (2021-09-30T17:15:17Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - Data-efficient Weakly-supervised Learning for On-line Object Detection
under Domain Shift in Robotics [24.878465999976594]
文献では、Deep Convolutional Neural Networks (DCNNs)に基づく多数のオブジェクト検出方法が提案されている。
これらの手法はロボティクスに重要な制限がある:オフラインデータのみに学習するとバイアスが発生し、新しいタスクへの適応を防ぐことができる。
本研究では,弱い教師付き学習がこれらの問題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2020-12-28T16:36:11Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。