論文の概要: Interpreting Attention Layer Outputs with Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2406.17759v1
- Date: Tue, 25 Jun 2024 17:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 13:21:40.371256
- Title: Interpreting Attention Layer Outputs with Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダによる注意層出力の解釈
- Authors: Connor Kissane, Robert Krzyzanowski, Joseph Isaac Bloom, Arthur Conmy, Neel Nanda,
- Abstract要約: モデルアクティベーションを解釈可能なコンポーネントに分解することは、機械的解釈可能性において鍵となるオープンな問題である。
この作業では、注意層出力でSAEをトレーニングし、ここでもSAEがスパースで解釈可能な分解を見つけることを示す。
Sparse Autoencodersは、研究者が以前の作業よりも詳細にモデル動作を説明するのに役立つツールであることを示す。
- 参考スコア(独自算出の注目度): 3.201633659481912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decomposing model activations into interpretable components is a key open problem in mechanistic interpretability. Sparse autoencoders (SAEs) are a popular method for decomposing the internal activations of trained transformers into sparse, interpretable features, and have been applied to MLP layers and the residual stream. In this work we train SAEs on attention layer outputs and show that also here SAEs find a sparse, interpretable decomposition. We demonstrate this on transformers from several model families and up to 2B parameters. We perform a qualitative study of the features computed by attention layers, and find multiple families: long-range context, short-range context and induction features. We qualitatively study the role of every head in GPT-2 Small, and estimate that at least 90% of the heads are polysemantic, i.e. have multiple unrelated roles. Further, we show that Sparse Autoencoders are a useful tool that enable researchers to explain model behavior in greater detail than prior work. For example, we explore the mystery of why models have so many seemingly redundant induction heads, use SAEs to motivate the hypothesis that some are long-prefix whereas others are short-prefix, and confirm this with more rigorous analysis. We use our SAEs to analyze the computation performed by the Indirect Object Identification circuit (Wang et al.), validating that the SAEs find causally meaningful intermediate variables, and deepening our understanding of the semantics of the circuit. We open-source the trained SAEs and a tool for exploring arbitrary prompts through the lens of Attention Output SAEs.
- Abstract(参考訳): モデルアクティベーションを解釈可能なコンポーネントに分解することは、機械的解釈可能性において鍵となるオープンな問題である。
スパースオートエンコーダ(SAE)は、訓練されたトランスフォーマーの内部活性化をスパースで解釈可能な特徴に分解する一般的な方法であり、MLP層や残留ストリームに適用されている。
この作業では、注意層出力でSAEをトレーニングし、ここでもSAEがスパースで解釈可能な分解を見つけることを示す。
いくつかのモデルファミリと最大2Bパラメータの変換器でこれを実証する。
注意層によって計算された特徴の質的研究を行い、複数の家族(長距離コンテキスト、短距離コンテキスト、誘導特徴)を見つける。
我々は、GPT-2 Smallにおける全ての頭部の役割を質的に研究し、少なくとも90%の頭部が多意味である、すなわち複数の無関係な役割を持っていると推定する。
さらに、スパースオートエンコーダは、研究者が以前の作業よりも詳細にモデル動作を説明するのに役立つツールであることを示す。
例えば、なぜモデルがこれほど多くの冗長な誘導ヘッドを持つのかというミステリーを探求し、SAEを用いて長い前置詞であるとする仮説を動機付け、他のものは短い前置詞であり、より厳密な分析によってこれを裏付ける。
我々は,間接物体同定回路 (Wang et al ) によって実行される計算をSAEを用いて解析し,SAEが因果的に意味のある中間変数を発見し,回路のセマンティクスの理解を深めることを検証する。
我々は、トレーニングされたSAEと、注意出力SAEのレンズを通して任意のプロンプトを探索するためのツールをオープンソース化する。
関連論文リスト
- Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data [3.988614978933934]
構造因果モデル(SCM)を用いた探索の形式的視点を開発する。
我々は,合成グリッドワールドナビゲーションタスクの文脈において,最近のLMの研究を拡張した。
本手法は,LMがテキストの根底にある因果的概念を学習できることを示す,堅牢な実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-07-18T17:59:27Z) - Transcoders Find Interpretable LLM Feature Circuits [1.4254279830438588]
120M、410M、1.4Bパラメータを持つ言語モデル上でトランスコーダを訓練する。
次に,トランスコーダを用いた重みに基づく回路解析手法を提案する。
その結果,トランスコーダはモデル計算を解釈可能な回路に分解するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-17T17:49:00Z) - Talking Heads: Understanding Inter-layer Communication in Transformer Language Models [32.2976613483151]
トランスフォーマー言語モデル(LM)が、初期レイヤから後期レイヤに機能を渡すことが分かりました。
LMがこれを実現するために使用する特定のメカニズムを分析することで、リストからアイテムをリコールするためにも使用されることが分かる。
分析の結果,言語モデルの事前学習から得られた驚くほど複雑な解釈可能な構造が明らかになった。
論文 参考訳(メタデータ) (2024-06-13T18:12:01Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Function Vectors in Large Language Models [45.267194267587435]
自己回帰変換言語モデル(LM)内のベクトルとして入力出力関数を表す単純な神経機構の存在を報告する。
多様なコンテキスト内学習(ICL)タスクの因果媒介分析を用いて、少数の注意ヘッドがデモされたタスクのコンパクトな表現を伝達し、関数ベクトル(FV)と呼ぶ。
論文 参考訳(メタデータ) (2023-10-23T17:55:24Z) - All Roads Lead to Rome? Exploring the Invariance of Transformers'
Representations [69.3461199976959]
本稿では, ビジェクション仮説を学習するために, 非可逆ニューラルネットワーク BERT-INN に基づくモデルを提案する。
BERT-INNの利点は理論上も広範な実験を通じても明らかである。
論文 参考訳(メタデータ) (2023-05-23T22:30:43Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文 参考訳(メタデータ) (2022-11-01T17:08:44Z) - Auto-Parsing Network for Image Captioning and Visual Question Answering [101.77688388554097]
本稿では,入力データの隠れ木構造を発見し,活用するための自動パーシングネットワーク(APN)を提案する。
具体的には、各自己注意層における注意操作によってパラメータ化された確率的グラフモデル(PGM)を課し、スパース仮定を組み込む。
論文 参考訳(メタデータ) (2021-08-24T08:14:35Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。