論文の概要: Interpreting Attention Layer Outputs with Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2406.17759v1
- Date: Tue, 25 Jun 2024 17:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 13:21:40.371256
- Title: Interpreting Attention Layer Outputs with Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダによる注意層出力の解釈
- Authors: Connor Kissane, Robert Krzyzanowski, Joseph Isaac Bloom, Arthur Conmy, Neel Nanda,
- Abstract要約: モデルアクティベーションを解釈可能なコンポーネントに分解することは、機械的解釈可能性において鍵となるオープンな問題である。
この作業では、注意層出力でSAEをトレーニングし、ここでもSAEがスパースで解釈可能な分解を見つけることを示す。
Sparse Autoencodersは、研究者が以前の作業よりも詳細にモデル動作を説明するのに役立つツールであることを示す。
- 参考スコア(独自算出の注目度): 3.201633659481912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decomposing model activations into interpretable components is a key open problem in mechanistic interpretability. Sparse autoencoders (SAEs) are a popular method for decomposing the internal activations of trained transformers into sparse, interpretable features, and have been applied to MLP layers and the residual stream. In this work we train SAEs on attention layer outputs and show that also here SAEs find a sparse, interpretable decomposition. We demonstrate this on transformers from several model families and up to 2B parameters. We perform a qualitative study of the features computed by attention layers, and find multiple families: long-range context, short-range context and induction features. We qualitatively study the role of every head in GPT-2 Small, and estimate that at least 90% of the heads are polysemantic, i.e. have multiple unrelated roles. Further, we show that Sparse Autoencoders are a useful tool that enable researchers to explain model behavior in greater detail than prior work. For example, we explore the mystery of why models have so many seemingly redundant induction heads, use SAEs to motivate the hypothesis that some are long-prefix whereas others are short-prefix, and confirm this with more rigorous analysis. We use our SAEs to analyze the computation performed by the Indirect Object Identification circuit (Wang et al.), validating that the SAEs find causally meaningful intermediate variables, and deepening our understanding of the semantics of the circuit. We open-source the trained SAEs and a tool for exploring arbitrary prompts through the lens of Attention Output SAEs.
- Abstract(参考訳): モデルアクティベーションを解釈可能なコンポーネントに分解することは、機械的解釈可能性において鍵となるオープンな問題である。
スパースオートエンコーダ(SAE)は、訓練されたトランスフォーマーの内部活性化をスパースで解釈可能な特徴に分解する一般的な方法であり、MLP層や残留ストリームに適用されている。
この作業では、注意層出力でSAEをトレーニングし、ここでもSAEがスパースで解釈可能な分解を見つけることを示す。
いくつかのモデルファミリと最大2Bパラメータの変換器でこれを実証する。
注意層によって計算された特徴の質的研究を行い、複数の家族(長距離コンテキスト、短距離コンテキスト、誘導特徴)を見つける。
我々は、GPT-2 Smallにおける全ての頭部の役割を質的に研究し、少なくとも90%の頭部が多意味である、すなわち複数の無関係な役割を持っていると推定する。
さらに、スパースオートエンコーダは、研究者が以前の作業よりも詳細にモデル動作を説明するのに役立つツールであることを示す。
例えば、なぜモデルがこれほど多くの冗長な誘導ヘッドを持つのかというミステリーを探求し、SAEを用いて長い前置詞であるとする仮説を動機付け、他のものは短い前置詞であり、より厳密な分析によってこれを裏付ける。
我々は,間接物体同定回路 (Wang et al ) によって実行される計算をSAEを用いて解析し,SAEが因果的に意味のある中間変数を発見し,回路のセマンティクスの理解を深めることを検証する。
我々は、トレーニングされたSAEと、注意出力SAEのレンズを通して任意のプロンプトを探索するためのツールをオープンソース化する。
関連論文リスト
- Back Attention: Understanding and Enhancing Multi-Hop Reasoning in Large Language Models [51.53835083483751]
我々は,「ヴォルフガング・アマデウス・モーツァルトの母の配偶者」のようなプロンプトにおいて,大規模言語モデルが潜在マルチホップ推論をどのように行うかを検討する。
故障は相関属性抽出の段階に起因することが多く、矛盾するロジットが予測精度を低下させる。
注意計算において,下位層が異なる位置から高層隠れ状態を利用することができる機構であるバックアテンションを提案する。
論文 参考訳(メタデータ) (2025-02-15T15:36:42Z) - Transformers Use Causal World Models in Maze-Solving Tasks [49.67445252528868]
各種領域にまたがるタスクで訓練された変圧器モデルの内部動作について検討する。
トランスフォーマーは、トレーニング中に見るよりも多くのアクティブな機能に対して理にかなっていることが分かりました。
様々な位置エンコーディングがモデルの残留ストリームにWMをエンコードする方法を変えることを観察する。
論文 参考訳(メタデータ) (2024-12-16T15:21:04Z) - Understanding Hidden Computations in Chain-of-Thought Reasoning [0.0]
CoT(Chain-of-Thought)の促進により、大規模言語モデルの推論能力が大幅に向上した。
近年の研究では、CoTをフィラー(隠れた)文字に置き換えた場合でも、モデルが複雑な推論タスクを実行できることが示されている。
論文 参考訳(メタデータ) (2024-12-05T18:43:11Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Automatically Interpreting Millions of Features in Large Language Models [1.8035046415192353]
スパースオートエンコーダ(SAE)は、活性化を高次元の潜在空間に変換するために用いられる。
SAEの機能に関する自然言語の説明を生成・評価するためのオープンソースのパイプラインを構築します。
我々の大規模分析は、SAE潜伏剤がニューロンよりもはるかに解釈可能であることを確認しています。
論文 参考訳(メタデータ) (2024-10-17T17:56:01Z) - Talking Heads: Understanding Inter-layer Communication in Transformer Language Models [32.2976613483151]
2つのLMで用いられるメカニズムを分析し、1つのタスクでコンテキスト内のアイテムを選択的に抑制する。
モデルが残ストリームの低ランクな部分空間に書き込まれて,後続のレイヤで読み出される特徴を表現することが分かりました。
論文 参考訳(メタデータ) (2024-06-13T18:12:01Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Function Vectors in Large Language Models [45.267194267587435]
自己回帰変換言語モデル(LM)内のベクトルとして入力出力関数を表す単純な神経機構の存在を報告する。
多様なコンテキスト内学習(ICL)タスクの因果媒介分析を用いて、少数の注意ヘッドがデモされたタスクのコンパクトな表現を伝達し、関数ベクトル(FV)と呼ぶ。
論文 参考訳(メタデータ) (2023-10-23T17:55:24Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。