Fugu-MT 論文翻訳(概要): Towards Automated Circuit Discovery for Mechanistic Interpretability

論文の概要: Towards Automated Circuit Discovery for Mechanistic Interpretability

arxiv url: http://arxiv.org/abs/2304.14997v1
Date: Fri, 28 Apr 2023 17:36:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-01 13:15:02.087848
Title: Towards Automated Circuit Discovery for Mechanistic Interpretability
Title（参考訳）: メカニスティック・インタプリタビリティのための自動回路発見に向けて
Authors: Arthur Conmy, Augustine N. Mavor-Parker, Aengus Lynch, Stefan Heimersheim, Adri\`a Garriga-Alonso
Abstract要約: 機械的解釈可能性に関する最近の研究は、変圧器モデルの非自明な振る舞いをリバースエンジニアリングした。本研究は,ネットワーク内の重要なユニットの識別を自動化する新しいアルゴリズムであるAutomatic Circuit DisCovery (ACDC)を提案する。 ACDCは、Pythonのドクストリングの回路を小さなトランスフォーマーで再現することができ、6/7の重要なアテンションヘッドを識別し、最大で3層まで、そして91%の接続を減らした。
参考スコア（独自算出の注目度）: 0.7499722271664145
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work in mechanistic interpretability has reverse-engineered nontrivial behaviors of transformer models. These contributions required considerable effort and researcher intuition, which makes it difficult to apply the same methods to understand the complex behavior that current models display. At their core however, the workflow for these discoveries is surprisingly similar. Researchers create a data set and metric that elicit the desired model behavior, subdivide the network into appropriate abstract units, replace activations of those units to identify which are involved in the behavior, and then interpret the functions that these units implement. By varying the data set, metric, and units under investigation, researchers can understand the functionality of each neural network region and the circuits they compose. This work proposes a novel algorithm, Automatic Circuit DisCovery (ACDC), to automate the identification of the important units in the network. Given a model's computational graph, ACDC finds subgraphs that explain a behavior of the model. ACDC was able to reproduce a previously identified circuit for Python docstrings in a small transformer, identifying 6/7 important attention heads that compose up to 3 layers deep, while including 91% fewer the connections.
Abstract（参考訳）: 機械的解釈可能性に関する最近の研究は、変圧器モデルの非自明な振る舞いをリバースエンジニアリングした。これらの貢献にはかなりの努力と研究者の直感が必要であり、現在のモデルが示す複雑な振る舞いを理解するために同じ方法を適用することは困難である。しかし、その中核であるこれらの発見のワークフローは驚くほど似ている。研究者は、望ましいモデル行動を引き出すデータセットとメトリクスを作成し、ネットワークを適切な抽象単位に分割し、それらのユニットのアクティベーションを置き換えて、それらのユニットが実装する機能を特定する。調査中のデータセット、メトリック、ユニットを変更することで、研究者はそれぞれのニューラルネットワーク領域と構成する回路の機能を理解することができる。本研究では,ネットワーク内の重要なユニットの識別を自動化する新しいアルゴリズムであるAutomatic Circuit DisCovery (ACDC)を提案する。モデルの計算グラフが与えられたとき、ACDCはモデルの振る舞いを説明する部分グラフを見つける。 acdcは、以前のpython docstringsの回路を小さなトランスフォーマーで再現し、最大3層の深さを持つ6/7の重要な注意ヘッドを特定し、91%の接続を削減した。

関連論文リスト

(How) Do Language Models Track State? [50.516691979518164]
トランスフォーマー言語モデル(LM)は、進化している世界の未観測状態を追跡する必要があるように見える振る舞いを示す。順列を構成するために訓練された、あるいは微調整されたLMにおける状態追跡について検討した。 LMは2つの状態追跡機構のうちの1つを一貫して学習していることを示す。
論文参考訳（メタデータ） (2025-03-04T18:31:02Z)
Position-aware Automatic Circuit Discovery [59.64762573617173]
我々は既存の回路探索手法のギャップを同定し、モデル成分を入力位置間で等しく関連するものとして扱う。可変長例を含むタスクであっても,回路に位置性を組み込むための2つの改良を提案する。提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
論文参考訳（メタデータ） (2025-02-07T00:18:20Z)
Kolmogorov GAM Networks are all you need! [0.6906005491572398]
Kolmogorov GAMネットワークは、トレーニングと推論のための効率的なアーキテクチャであることが示されている。それらは、関心の関数に依存しない埋め込みを持つ加法モデルである。
論文参考訳（メタデータ） (2025-01-01T02:46:00Z)
Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文参考訳（メタデータ） (2024-10-06T06:04:23Z)
Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文参考訳（メタデータ） (2024-07-11T17:59:00Z)
Efficient Automated Circuit Discovery in Transformers using Contextual Decomposition [10.13822875330178]
大規模言語モデルで解釈可能な回路を構築するために,変換器 (CD-T) のコンテキスト分解を導入する。 CD-Tは任意のレベルの抽象化の回路を生成でき、アテンションヘッドと同じくらいきめ細かな回路を最初に生成できる。 CD-T回路は、全てのタスクのベースラインよりも少ないノードで、オリジナルのモデルの動作を完璧に再現できることを示す。
論文参考訳（メタデータ） (2024-07-01T01:12:20Z)
Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文参考訳（メタデータ） (2024-06-24T16:40:54Z)
Automatically Identifying Local and Global Circuits with Linear Computation Graphs [45.760716193942685]
Sparse Autoencoders (SAEs) と Transcoders と呼ばれる変種を用いた回路発見パイプラインを導入する。本手法は各ノードの因果効果を計算するために線形近似を必要としない。 GPT-2 Small: Bracket, induction, Indirect Object Identification circuits の3種類の回路を解析する。
論文参考訳（メタデータ） (2024-05-22T17:50:04Z)
GEC-DePenD: Non-Autoregressive Grammatical Error Correction with Decoupled Permutation and Decoding [52.14832976759585]
文法的誤り訂正(GEC)は、通常自己回帰的なシーケンス・ツー・シーケンスモデルで解決される重要なNLPタスクである。本稿では, アーキテクチャを置換ネットワークに分離する, GEC に対する非自己回帰的アプローチを提案する。 GECの既知の非自己回帰手法よりもネットワークが向上することを示す。
論文参考訳（メタデータ） (2023-11-14T14:24:36Z)
Attribution Patching Outperforms Automated Circuit Discovery [3.8695554579762814]
帰属パッチに基づく単純な手法が,既存の手法よりも優れていることを示す。演算サブグラフにおける各エッジの重要性を推定するために、線形近似をアクティベーションパッチに適用する。
論文参考訳（メタデータ） (2023-10-16T12:34:43Z)
Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文参考訳（メタデータ） (2022-03-29T21:18:47Z)
The data-driven physical-based equations discovery using evolutionary approach [77.34726150561087]
与えられた観測データから数学的方程式を発見するアルゴリズムについて述べる。このアルゴリズムは遺伝的プログラミングとスパース回帰を組み合わせたものである。解析方程式の発見や偏微分方程式(PDE)の発見にも用いられる。
論文参考訳（メタデータ） (2020-04-03T17:21:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。