論文の概要: Towards Automated Circuit Discovery for Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2304.14997v1
- Date: Fri, 28 Apr 2023 17:36:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 13:15:02.087848
- Title: Towards Automated Circuit Discovery for Mechanistic Interpretability
- Title(参考訳): メカニスティック・インタプリタビリティのための自動回路発見に向けて
- Authors: Arthur Conmy, Augustine N. Mavor-Parker, Aengus Lynch, Stefan
Heimersheim, Adri\`a Garriga-Alonso
- Abstract要約: 機械的解釈可能性に関する最近の研究は、変圧器モデルの非自明な振る舞いをリバースエンジニアリングした。
本研究は,ネットワーク内の重要なユニットの識別を自動化する新しいアルゴリズムであるAutomatic Circuit DisCovery (ACDC)を提案する。
ACDCは、Pythonのドクストリングの回路を小さなトランスフォーマーで再現することができ、6/7の重要なアテンションヘッドを識別し、最大で3層まで、そして91%の接続を減らした。
- 参考スコア(独自算出の注目度): 0.7499722271664145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work in mechanistic interpretability has reverse-engineered nontrivial
behaviors of transformer models. These contributions required considerable
effort and researcher intuition, which makes it difficult to apply the same
methods to understand the complex behavior that current models display. At
their core however, the workflow for these discoveries is surprisingly similar.
Researchers create a data set and metric that elicit the desired model
behavior, subdivide the network into appropriate abstract units, replace
activations of those units to identify which are involved in the behavior, and
then interpret the functions that these units implement. By varying the data
set, metric, and units under investigation, researchers can understand the
functionality of each neural network region and the circuits they compose. This
work proposes a novel algorithm, Automatic Circuit DisCovery (ACDC), to
automate the identification of the important units in the network. Given a
model's computational graph, ACDC finds subgraphs that explain a behavior of
the model. ACDC was able to reproduce a previously identified circuit for
Python docstrings in a small transformer, identifying 6/7 important attention
heads that compose up to 3 layers deep, while including 91% fewer the
connections.
- Abstract(参考訳): 機械的解釈可能性に関する最近の研究は、変圧器モデルの非自明な振る舞いをリバースエンジニアリングした。
これらの貢献にはかなりの努力と研究者の直感が必要であり、現在のモデルが示す複雑な振る舞いを理解するために同じ方法を適用することは困難である。
しかし、その中核であるこれらの発見のワークフローは驚くほど似ている。
研究者は、望ましいモデル行動を引き出すデータセットとメトリクスを作成し、ネットワークを適切な抽象単位に分割し、それらのユニットのアクティベーションを置き換えて、それらのユニットが実装する機能を特定する。
調査中のデータセット、メトリック、ユニットを変更することで、研究者はそれぞれのニューラルネットワーク領域と構成する回路の機能を理解することができる。
本研究では,ネットワーク内の重要なユニットの識別を自動化する新しいアルゴリズムであるAutomatic Circuit DisCovery (ACDC)を提案する。
モデルの計算グラフが与えられたとき、ACDCはモデルの振る舞いを説明する部分グラフを見つける。
acdcは、以前のpython docstringsの回路を小さなトランスフォーマーで再現し、最大3層の深さを持つ6/7の重要な注意ヘッドを特定し、91%の接続を削減した。
関連論文リスト
- GEC-DePenD: Non-Autoregressive Grammatical Error Correction with
Decoupled Permutation and Decoding [52.14832976759585]
文法的誤り訂正(GEC)は、通常自己回帰的なシーケンス・ツー・シーケンスモデルで解決される重要なNLPタスクである。
本稿では, アーキテクチャを置換ネットワークに分離する, GEC に対する非自己回帰的アプローチを提案する。
GECの既知の非自己回帰手法よりもネットワークが向上することを示す。
論文 参考訳(メタデータ) (2023-11-14T14:24:36Z) - Attribution Patching Outperforms Automated Circuit Discovery [3.8695554579762814]
帰属パッチに基づく単純な手法が,既存の手法よりも優れていることを示す。
演算サブグラフにおける各エッジの重要性を推定するために、線形近似をアクティベーションパッチに適用する。
論文 参考訳(メタデータ) (2023-10-16T12:34:43Z) - Can Transformers Learn to Solve Problems Recursively? [9.5623664764386]
本稿では,プログラムと形式検証に関連するニューラルネットワーク学習アルゴリズムの挙動について検討する。
これらのアルゴリズムを再構築することにより、近似関数の1つに対して、障害ケースの91%を正確に予測することができる。
論文 参考訳(メタデータ) (2023-05-24T04:08:37Z) - Reachable Polyhedral Marching (RPM): An Exact Analysis Tool for
Deep-Learned Control Systems [20.595032143044506]
本稿では,直列線形ユニット(ReLU)をアクティベートしたディープニューラルネットワークの,前方および後方到達可能な正確な集合を計算するためのツールを提案する。
このツールを用いてアルゴリズムを開発し、フィードバックループ内のニューラルネットワークを持つ制御系に対する不変集合とアトラクション領域(ROA)を計算する。
論文 参考訳(メタデータ) (2022-10-15T17:15:53Z) - One-Pass Learning via Bridging Orthogonal Gradient Descent and Recursive
Least-Squares [8.443742714362521]
我々は,従来のデータポイントの予測にほとんど変化しない方向にパラメータを変更しながら,すべての新しいデータポイントに完全に適合するワンパス学習アルゴリズムを開発した。
我々のアルゴリズムは、インクリメンタル・プリンシパル・コンポーネント分析(IPCA)を用いてストリーミングデータの構造を利用して、メモリを効率的に利用する。
本実験では,提案手法の有効性をベースラインと比較した。
論文 参考訳(メタデータ) (2022-07-28T02:01:31Z) - Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling
and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。
異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。
出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文 参考訳(メタデータ) (2022-03-29T21:18:47Z) - Representation Learning of Logic Circuits [7.614021815435811]
本稿では,各ゲート上のベクトルとして回路の論理関数と構造情報を埋め込んだ表現学習ソリューションを提案する。
具体的には、学習のために回路を統一およびインバータグラフ形式に変換することを提案する。
次に,信号確率予測の先行学習として,実用的な回路における強い帰納バイアスを用いた新しいグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-11-26T05:57:05Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - Evaluating Explainable AI: Which Algorithmic Explanations Help Users
Predict Model Behavior? [97.77183117452235]
我々は、モデル解釈性に対するアルゴリズム的説明の影響を分離するために、人体テストを実施している。
方法の有効性の明確な証拠はごく少数にみえる。
以上の結果から,説明がシミュラビリティにどのように影響するかの信頼性と包括的評価が得られた。
論文 参考訳(メタデータ) (2020-05-04T20:35:17Z) - The data-driven physical-based equations discovery using evolutionary
approach [77.34726150561087]
与えられた観測データから数学的方程式を発見するアルゴリズムについて述べる。
このアルゴリズムは遺伝的プログラミングとスパース回帰を組み合わせたものである。
解析方程式の発見や偏微分方程式(PDE)の発見にも用いられる。
論文 参考訳(メタデータ) (2020-04-03T17:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。