論文の概要: Transcoders Find Interpretable LLM Feature Circuits
- arxiv url: http://arxiv.org/abs/2406.11944v2
- Date: Wed, 06 Nov 2024 22:37:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:36:41.487056
- Title: Transcoders Find Interpretable LLM Feature Circuits
- Title(参考訳): トランスコーダによるLLM特徴回路の解釈
- Authors: Jacob Dunefsky, Philippe Chlenski, Neel Nanda,
- Abstract要約: サブレイヤを通して回路解析を行うためにトランスコーダを用いる新しい手法を提案する。
120M, 410M, 1.4Bパラメータを持つ言語モデル上でトランスコーダを訓練し, 疎さ, 忠実さ, 人間の解釈可能性の観点から, 少なくともSAEに匹敵する性能を示す。
- 参考スコア(独自算出の注目度): 1.4254279830438588
- License:
- Abstract: A key goal in mechanistic interpretability is circuit analysis: finding sparse subgraphs of models corresponding to specific behaviors or capabilities. However, MLP sublayers make fine-grained circuit analysis on transformer-based language models difficult. In particular, interpretable features -- such as those found by sparse autoencoders (SAEs) -- are typically linear combinations of extremely many neurons, each with its own nonlinearity to account for. Circuit analysis in this setting thus either yields intractably large circuits or fails to disentangle local and global behavior. To address this we explore transcoders, which seek to faithfully approximate a densely activating MLP layer with a wider, sparsely-activating MLP layer. We introduce a novel method for using transcoders to perform weights-based circuit analysis through MLP sublayers. The resulting circuits neatly factorize into input-dependent and input-invariant terms. We then successfully train transcoders on language models with 120M, 410M, and 1.4B parameters, and find them to perform at least on par with SAEs in terms of sparsity, faithfulness, and human-interpretability. Finally, we apply transcoders to reverse-engineer unknown circuits in the model, and we obtain novel insights regarding the "greater-than circuit" in GPT2-small. Our results suggest that transcoders can prove effective in decomposing model computations involving MLPs into interpretable circuits. Code is available at https://github.com/jacobdunefsky/transcoder_circuits/.
- Abstract(参考訳): 機械的解釈可能性の重要なゴールは回路解析であり、特定の振る舞いや能力に対応するモデルのスパース部分グラフを見つけることである。
しかし、MLPサブレイヤは変換器ベースの言語モデルにおいて、きめ細かい回路解析を困難にしている。
特に、スパースオートエンコーダ(SAE)で見られるような解釈可能な特徴は、通常、非常に多くのニューロンの線形結合であり、それぞれが考慮すべき非線形性を持つ。
この設定での回路解析は、引き締まるほど大きな回路を得るか、局所的および大域的挙動を乱すのに失敗する。
これを解決するためにトランスコーダを探索し、より広く、疎に活性化するMLP層を忠実に近似する。
MLPサブレイヤによる重みに基づく回路解析を行うためにトランスコーダを用いる新しい手法を提案する。
結果として得られる回路は、入力依存項と入力不変項に適切に分解される。
次に,120M,410M,1.4Bのパラメータを持つ言語モデル上でトランスコーダをトレーニングし,スポーサリティ,忠実度,人間解釈性の観点から,少なくともSAEと同等に動作させることを確かめる。
最後に、モデル内の未知回路のリバースエンジニアリングにトランスコーダを適用し、GPT2-Smallにおける「大局的な回路」に関する新たな知見を得る。
その結果,トランスコーダはMLPを含むモデル計算を解釈可能な回路に分解するのに有効であることが示唆された。
コードはhttps://github.com/jacobdunefsky/transcoder_circuits/で公開されている。
関連論文リスト
- LaMAGIC: Language-Model-based Topology Generation for Analog Integrated Circuits [17.002169206594793]
先駆的な言語モデルに基づくトポロジ生成モデルであるLaMAGICを紹介する。
LaMAGICは、カスタム仕様から最適化された回路設計を単一のパスで効率的に生成できる。
LaMAGICは0.01の厳格な許容条件で最大96%の成功率を達成した。
論文 参考訳(メタデータ) (2024-07-19T22:51:41Z) - Interpreting Attention Layer Outputs with Sparse Autoencoders [3.201633659481912]
モデルアクティベーションを解釈可能なコンポーネントに分解することは、機械的解釈可能性において鍵となるオープンな問題である。
この作業では、注意層出力でSAEをトレーニングし、ここでもSAEがスパースで解釈可能な分解を見つけることを示す。
Sparse Autoencodersは、研究者が以前の作業よりも詳細にモデル動作を説明するのに役立つツールであることを示す。
論文 参考訳(メタデータ) (2024-06-25T17:43:13Z) - Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文 参考訳(メタデータ) (2024-06-24T16:40:54Z) - Transformers need glasses! Information over-squashing in language tasks [18.81066657470662]
復号器のみの変換器における情報伝達について検討する。
変換器への入力の特定のシーケンスは、最終的なトークンにおいて任意にクローズな表現が得られることを示す。
また,デコーダのみのトランスフォーマー言語モデルでは,入力中の特定のトークンに対する感度が低下することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:14:44Z) - Automatically Identifying Local and Global Circuits with Linear Computation Graphs [45.760716193942685]
Sparse Autoencoders (SAEs) と Transcoders と呼ばれる変種を用いた回路発見パイプラインを導入する。
本手法は各ノードの因果効果を計算するために線形近似を必要としない。
GPT-2 Small: Bracket, induction, Indirect Object Identification circuits の3種類の回路を解析する。
論文 参考訳(メタデータ) (2024-05-22T17:50:04Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Circuit Transformer: End-to-end Circuit Design by Predicting the Next Gate [20.8279111910994]
言語はシーケンシャルなシンボルを通して表現する卓越した人間の能力であり、近年の大規模言語モデル(LLM)の進歩によって計算的に習得されている。
LLMは理解と推論において前例のない能力を示した。
回路も十分に大きな「回路モデル」でマスターでき、次の論理ゲートを単に予測することで電子設計タスクを克服できるだろうか?
論文 参考訳(メタデータ) (2024-03-14T03:24:14Z) - Machine Learning-Aided Efficient Decoding of Reed-Muller Subcodes [59.55193427277134]
Reed-Muller (RM) 符号は、一般的なバイナリインプットメモリレス対称チャネルの容量を達成する。
RM符号は制限されたレートのみを許容する。
効率的なデコーダは、RM符号に対して有限長で利用可能である。
論文 参考訳(メタデータ) (2023-01-16T04:11:14Z) - Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。
我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。
さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:45:48Z) - Learning to Encode Position for Transformer with Continuous Dynamical
Model [88.69870971415591]
本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。
このような力学系による位置指数に沿った符号化結果の進化をモデル化する。
論文 参考訳(メタデータ) (2020-03-13T00:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。