論文の概要: Residual Stream Analysis with Multi-Layer SAEs
- arxiv url: http://arxiv.org/abs/2409.04185v2
- Date: Mon, 7 Oct 2024 11:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 23:00:54.744684
- Title: Residual Stream Analysis with Multi-Layer SAEs
- Title(参考訳): 多層SAEを用いた残留流解析
- Authors: Tim Lawson, Lucy Farnik, Conor Houghton, Laurence Aitchison,
- Abstract要約: 各トランス層からの残ストリーム活性化ベクトルをトレーニングした単一SAEであるMLSAE(Multi-layer SAE)を導入する。
個々のラテントが特定のトークンやプロンプトの単一の層でアクティブになることが多いが、この層は異なるトークンやプロンプトに対して異なる場合がある。
より大きな基盤モデルでは、複数の層でラテントの活性度が増加するが、これは隣接する層での残留ストリーム活性化ベクトルがより類似しているという事実と一致している。
- 参考スコア(独自算出の注目度): 21.142967037533175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) are a promising approach to interpreting the internal representations of transformer language models. However, SAEs are usually trained separately on each transformer layer, making it difficult to use them to study how information flows across layers. To solve this problem, we introduce the multi-layer SAE (MLSAE): a single SAE trained on the residual stream activation vectors from every transformer layer. Given that the residual stream is understood to preserve information across layers, we expected MLSAE latents to `switch on' at a token position and remain active at later layers. Interestingly, we find that individual latents are often active at a single layer for a given token or prompt, but this layer may differ for different tokens or prompts. We quantify these phenomena by defining a distribution over layers and considering its variance. We find that the variance of the distributions of latent activations over layers is about two orders of magnitude greater when aggregating over tokens compared with a single token. For larger underlying models, the degree to which latents are active at multiple layers increases, which is consistent with the fact that the residual stream activation vectors at adjacent layers become more similar. Finally, we relax the assumption that the residual stream basis is the same at every layer by applying pre-trained tuned-lens transformations, but our findings remain qualitatively similar. Our results represent a new approach to understanding how representations change as they flow through transformers. We release our code to train and analyze MLSAEs at https://github.com/tim-lawson/mlsae.
- Abstract(参考訳): スパースオートエンコーダ(SAE)はトランスフォーマー言語モデルの内部表現を解釈するための有望なアプローチである。
しかしながら、SAEは通常、各トランス層で個別にトレーニングされるため、レイヤ間の情報の流れを研究するのが困難である。
この問題を解決するために,各トランス層からの残ストリームアクティベーションベクトルをトレーニングした単一SAEである多層SAE(MLSAE)を導入する。
残余ストリームがレイヤ間で情報を保存するように理解されていることを考慮すれば、MLSAEラテントはトークン位置で“switch on”を期待して、後続のレイヤでアクティブなままです。
興味深いことに、個々のラテントが特定のトークンやプロンプトの単一の層でアクティブであることが多いが、この層は異なるトークンやプロンプトに対して異なる場合がある。
層上の分布を定義し,その分散を考慮し,これらの現象を定量化する。
層上での潜伏活性化の分布のばらつきは, 単一トークンに比べて, トークンを集積する場合の約2桁の差が大きいことがわかった。
より大きな基盤モデルでは、複数の層でラテントの活性度が増加するが、これは隣接する層での残留ストリーム活性化ベクトルがより類似しているという事実と一致している。
最後に,事前学習したチューリングレンズ変換を適用することで,残差ストリーム基底が各層で同じであるという仮定を緩和するが,その結果は定性的に類似している。
この結果は,トランスを流れるとき,表現がどのように変化するかを理解するための新しいアプローチを示す。
コードをリリースして、https://github.com/tim-lawson/mlsae.comでMLSAEをトレーニングし分析します。
関連論文リスト
- FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Value Residual Learning For Alleviating Attention Concentration In Transformers [14.898656879574622]
複数の注意層を積み重ねると 注意集中につながる
この問題に対処する自然な方法の1つは、レイヤ横断の注意を使うことで、以前のレイヤからの情報を後続のレイヤに直接アクセス可能にすることである。
本稿では,第1層の値から第1層の値への残差接続を付加することにより,層間注意を近似する残差値(ResFormer)の変換器を提案する。
論文 参考訳(メタデータ) (2024-10-23T14:15:07Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。
本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文 参考訳(メタデータ) (2024-05-26T21:31:59Z) - Manifold-Preserving Transformers are Effective for Short-Long Range
Encoding [39.14128923434994]
マルチヘッドセルフアテンションベースのトランスフォーマーは、異なる学習タスクにおいて有望であることを示す。
本研究では,一対のトークン間の層間距離保存を理論的に保証するエンコーダモデルTransJectを提案する。
論文 参考訳(メタデータ) (2023-10-22T06:58:28Z) - JoMA: Demystifying Multilayer Transformers via JOint Dynamics of MLP and Attention [36.737750120893516]
多層トランスフォーマーのトレーニング手順を理解するための新しい数学的枠組みであるジョイント/アテンション(JoMA)ダイナミクスを提案する。
JoMAは、最初に注意が粗くなり(正則なトークンを学ぶために)、次に非線形なアクティベーションの存在下で(より正則なトークンを学ぶために)密集する、と予測する。
入力トークンが潜在階層生成モデルによって生成されるとき、トークンを結合して多層トランスフォーマーの階層を形成する方法を説明するためにJoMAを利用する。
論文 参考訳(メタデータ) (2023-10-01T01:21:35Z) - Learnable Polyphase Sampling for Shift Invariant and Equivariant
Convolutional Networks [120.78155051439076]
LPSは、データからエンドツーエンドにトレーニングし、既存の手作りのダウンサンプリングレイヤを一般化することができる。
画像分類とセマンティックセグメンテーションにおけるLPSの評価を行った。
論文 参考訳(メタデータ) (2022-10-14T17:59:55Z) - Layer Reduction: Accelerating Conformer-Based Self-Supervised Model via
Layer Consistency [31.572652956170252]
トランスフォーマーをベースとした自己教師型モデルは特徴抽出器として訓練され、多くの下流音声タスクで最先端のパフォーマンスを実現している。
従来のBERT法と同等の性能を維持しつつ、7.8Xパラメータの削減、41.9%のトレーニングスピードアップ、37.7%の推論スピードアップを実験的に達成した。
論文 参考訳(メタデータ) (2021-04-08T08:21:59Z) - Transformer Feed-Forward Layers Are Key-Value Memories [49.52087581977751]
トランス言語モデルにおけるフィードフォワード層がキーバリューメモリとして動作することを示す。
学習したパターンは人間と解釈可能であり、下層は浅いパターンをキャプチャする傾向にあり、上層はセマンティックなパターンを学ぶ傾向にある。
論文 参考訳(メタデータ) (2020-12-29T19:12:05Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。