論文の概要: Towards Automated Circuit Discovery for Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2304.14997v4
- Date: Sat, 28 Oct 2023 20:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 22:36:31.004333
- Title: Towards Automated Circuit Discovery for Mechanistic Interpretability
- Title(参考訳): メカニスティック・インタプリタビリティのための自動回路発見に向けて
- Authors: Arthur Conmy, Augustine N. Mavor-Parker, Aengus Lynch, Stefan
Heimersheim, Adri\`a Garriga-Alonso
- Abstract要約: 本稿では,それに続く機械的解釈可能性プロセスの体系化について述べる。
調査中のデータセット、メトリック、ユニットを変えることで、研究者は各コンポーネントの機能を理解することができる。
本稿では,いくつかのアルゴリズムを提案し,それを検証するために過去の解釈可能性の結果を再現する。
- 参考スコア(独自算出の注目度): 7.605075513099429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Through considerable effort and intuition, several recent works have
reverse-engineered nontrivial behaviors of transformer models. This paper
systematizes the mechanistic interpretability process they followed. First,
researchers choose a metric and dataset that elicit the desired model behavior.
Then, they apply activation patching to find which abstract neural network
units are involved in the behavior. By varying the dataset, metric, and units
under investigation, researchers can understand the functionality of each
component. We automate one of the process' steps: to identify the circuit that
implements the specified behavior in the model's computational graph. We
propose several algorithms and reproduce previous interpretability results to
validate them. For example, the ACDC algorithm rediscovered 5/5 of the
component types in a circuit in GPT-2 Small that computes the Greater-Than
operation. ACDC selected 68 of the 32,000 edges in GPT-2 Small, all of which
were manually found by previous work. Our code is available at
https://github.com/ArthurConmy/Automatic-Circuit-Discovery.
- Abstract(参考訳): かなりの努力と直感を通じて、近年のいくつかの研究は、トランスフォーマーモデルの非自明な振る舞いをリバースエンジニアリングした。
本論文は, 機械的な解釈過程を体系化する。
まず、研究者は望ましいモデル行動を引き起こすメトリクスとデータセットを選択する。
次に、アクティベーションパッチを適用して、どの抽象ニューラルネットワークユニットが動作に関与しているかを見つける。
調査中のデータセット、メトリック、ユニットを変えることで、研究者は各コンポーネントの機能を理解することができる。
プロセスのステップの1つを自動化し、モデルの計算グラフで指定された動作を実装する回路を識別する。
我々は,いくつかのアルゴリズムを提案し,それを検証するために先行する解釈可能性結果を再現する。
例えば、ACDCアルゴリズムは、GPT-2 Smallの回路で5/5のコンポーネントタイプを再発見し、グレーター・タン演算を計算した。
ACDCはGPT-2 Smallで32,000のエッジのうち68を選定した。
私たちのコードはhttps://github.com/ArthurConmy/Automatic-Circuit-Discoveryで公開されています。
関連論文リスト
- Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文 参考訳(メタデータ) (2024-07-11T17:59:00Z) - Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文 参考訳(メタデータ) (2024-06-24T16:40:54Z) - Automatically Identifying Local and Global Circuits with Linear Computation Graphs [45.760716193942685]
Sparse Autoencoders (SAEs) と Transcoders と呼ばれる変種を用いた回路発見パイプラインを導入する。
本手法は各ノードの因果効果を計算するために線形近似を必要としない。
GPT-2 Small: Bracket, induction, Indirect Object Identification circuits の3種類の回路を解析する。
論文 参考訳(メタデータ) (2024-05-22T17:50:04Z) - GEC-DePenD: Non-Autoregressive Grammatical Error Correction with
Decoupled Permutation and Decoding [52.14832976759585]
文法的誤り訂正(GEC)は、通常自己回帰的なシーケンス・ツー・シーケンスモデルで解決される重要なNLPタスクである。
本稿では, アーキテクチャを置換ネットワークに分離する, GEC に対する非自己回帰的アプローチを提案する。
GECの既知の非自己回帰手法よりもネットワークが向上することを示す。
論文 参考訳(メタデータ) (2023-11-14T14:24:36Z) - Attribution Patching Outperforms Automated Circuit Discovery [3.8695554579762814]
帰属パッチに基づく単純な手法が,既存の手法よりも優れていることを示す。
演算サブグラフにおける各エッジの重要性を推定するために、線形近似をアクティベーションパッチに適用する。
論文 参考訳(メタデータ) (2023-10-16T12:34:43Z) - Reachable Polyhedral Marching (RPM): An Exact Analysis Tool for
Deep-Learned Control Systems [20.595032143044506]
本稿では,直列線形ユニット(ReLU)をアクティベートしたディープニューラルネットワークの,前方および後方到達可能な正確な集合を計算するためのツールを提案する。
このツールを用いてアルゴリズムを開発し、フィードバックループ内のニューラルネットワークを持つ制御系に対する不変集合とアトラクション領域(ROA)を計算する。
論文 参考訳(メタデータ) (2022-10-15T17:15:53Z) - Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling
and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。
異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。
出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文 参考訳(メタデータ) (2022-03-29T21:18:47Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - The data-driven physical-based equations discovery using evolutionary
approach [77.34726150561087]
与えられた観測データから数学的方程式を発見するアルゴリズムについて述べる。
このアルゴリズムは遺伝的プログラミングとスパース回帰を組み合わせたものである。
解析方程式の発見や偏微分方程式(PDE)の発見にも用いられる。
論文 参考訳(メタデータ) (2020-04-03T17:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。