論文の概要: Automatically Identifying Local and Global Circuits with Linear Computation Graphs
- arxiv url: http://arxiv.org/abs/2405.13868v2
- Date: Sun, 21 Jul 2024 11:42:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 01:31:23.011213
- Title: Automatically Identifying Local and Global Circuits with Linear Computation Graphs
- Title(参考訳): 線形計算グラフを用いた局所回路と大域回路の自動同定
- Authors: Xuyang Ge, Fukang Zhu, Wentao Shu, Junxuan Wang, Zhengfu He, Xipeng Qiu,
- Abstract要約: Sparse Autoencoders (SAEs) と Transcoders と呼ばれる変種を用いた回路発見パイプラインを導入する。
本手法は各ノードの因果効果を計算するために線形近似を必要としない。
GPT-2 Small: Bracket, induction, Indirect Object Identification circuits の3種類の回路を解析する。
- 参考スコア(独自算出の注目度): 45.760716193942685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Circuit analysis of any certain model behavior is a central task in mechanistic interpretability. We introduce our circuit discovery pipeline with Sparse Autoencoders (SAEs) and a variant called Transcoders. With these two modules inserted into the model, the model's computation graph with respect to OV and MLP circuits becomes strictly linear. Our methods do not require linear approximation to compute the causal effect of each node. This fine-grained graph identifies both end-to-end and local circuits accounting for either logits or intermediate features. We can scalably apply this pipeline with a technique called Hierarchical Attribution. We analyze three kinds of circuits in GPT-2 Small: bracket, induction, and Indirect Object Identification circuits. Our results reveal new findings underlying existing discoveries.
- Abstract(参考訳): 任意のモデル挙動の回路解析は、機械的解釈可能性において中心的な課題である。
Sparse Autoencoders (SAEs) と Transcoders と呼ばれる変種を用いた回路発見パイプラインを導入する。
これら2つのモジュールをモデルに挿入すると、OVおよびMPP回路に対するモデルの計算グラフは厳密に線形になる。
本手法は各ノードの因果効果を計算するために線形近似を必要としない。
このきめ細かいグラフは、ロジットまたは中間的特徴のいずれについても、エンドツーエンドとローカルの両方の回路を識別する。
階層的属性(hierarchical Attribution)と呼ばれるテクニックで、このパイプラインを辛抱強く適用できます。
GPT-2 Small: Bracket, induction, Indirect Object Identification circuits の3種類の回路を解析する。
以上の結果から,既存の発見の根底にある新たな発見が明らかになった。
関連論文リスト
- Functional Faithfulness in the Wild: Circuit Discovery with Differentiable Computation Graph Pruning [14.639036250438517]
本稿では、DiscoGPとともにCircuit Discoveryと呼ばれるタスクを包括的に再構築する。
DiscoGPは、回路発見のための識別可能なマスキングに基づく、新しく効果的なアルゴリズムである。
論文 参考訳(メタデータ) (2024-07-04T09:42:25Z) - Efficient Automated Circuit Discovery in Transformers using Contextual Decomposition [10.13822875330178]
大規模言語モデルで解釈可能な回路を構築するために,変換器 (CD-T) のコンテキスト分解を導入する。
CD-Tは任意のレベルの抽象化の回路を生成でき、アテンションヘッドと同じくらいきめ細かな回路を最初に生成できる。
CD-T回路は、全てのタスクのベースラインよりも少ないノードで、オリジナルのモデルの動作を完璧に再現できることを示す。
論文 参考訳(メタデータ) (2024-07-01T01:12:20Z) - Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文 参考訳(メタデータ) (2024-06-24T16:40:54Z) - Transcoders Find Interpretable LLM Feature Circuits [1.4254279830438588]
サブレイヤを通して回路解析を行うためにトランスコーダを用いる新しい手法を提案する。
120M, 410M, 1.4Bパラメータを持つ言語モデル上でトランスコーダを訓練し, 疎さ, 忠実さ, 人間の解釈可能性の観点から, 少なくともSAEに匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-06-17T17:49:00Z) - CktGNN: Circuit Graph Neural Network for Electronic Design Automation [67.29634073660239]
本稿では,回路トポロジ生成とデバイスサイズを同時に行う回路グラフニューラルネットワーク(CktGNN)を提案する。
オープンサーキットベンチマーク(OCB: Open Circuit Benchmark)は、オープンソースのデータセットで、10ドル(約10万円)の異なるオペレーショナルアンプを含む。
我々の研究は、アナログ回路のための学習ベースのオープンソース設計自動化への道を開いた。
論文 参考訳(メタデータ) (2023-08-31T02:20:25Z) - Towards Automated Circuit Discovery for Mechanistic Interpretability [7.605075513099429]
本稿では,それに続く機械的解釈可能性プロセスの体系化について述べる。
調査中のデータセット、メトリック、ユニットを変えることで、研究者は各コンポーネントの機能を理解することができる。
本稿では,いくつかのアルゴリズムを提案し,それを検証するために過去の解釈可能性の結果を再現する。
論文 参考訳(メタデータ) (2023-04-28T17:36:53Z) - Graph Signal Sampling for Inductive One-Bit Matrix Completion: a
Closed-form Solution [112.3443939502313]
グラフ信号解析と処理の利点を享受する統合グラフ信号サンプリングフレームワークを提案する。
キーとなる考え方は、各ユーザのアイテムのレーティングをアイテムイットグラフの頂点上の関数(信号)に変換することである。
オンライン設定では、グラフフーリエ領域における連続ランダムガウス雑音を考慮したベイズ拡張(BGS-IMC)を開発する。
論文 参考訳(メタデータ) (2023-02-08T08:17:43Z) - Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling
and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。
異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。
出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文 参考訳(メタデータ) (2022-03-29T21:18:47Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。