論文の概要: Residual Stream Analysis with Multi-Layer SAEs
- arxiv url: http://arxiv.org/abs/2409.04185v1
- Date: Fri, 6 Sep 2024 11:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 16:05:19.655551
- Title: Residual Stream Analysis with Multi-Layer SAEs
- Title(参考訳): 多層SAEを用いた残留流解析
- Authors: Tim Lawson, Lucy Farnik, Conor Houghton, Laurence Aitchison,
- Abstract要約: 各トランス層からの残ストリーム活性化ベクトルを同時にトレーニングした単一SAEである多層SAEを紹介する。
大きな基盤となるモデルでは、残留ストリーム内の隣接層間のコサイン類似度が高くなるため、複数の層でより多くの機能がアクティブになることが期待できる。
これらの結果から,MLSAEは変圧器内の情報の流れを研究する上で有望な手法であることが示唆された。
- 参考スコア(独自算出の注目度): 21.142967037533175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) are a promising approach to interpreting the internal representations of transformer language models. However, standard SAEs are trained separately on each transformer layer, making it difficult to use them to study how information flows across layers. To solve this problem, we introduce the multi-layer SAE (MLSAE): a single SAE trained on the residual stream activation vectors from every transformer layer simultaneously. The residual stream is usually understood as preserving information across layers, so we expected to, and did, find individual SAE features that are active at multiple layers. Interestingly, while a single SAE feature is active at different layers for different prompts, for a single prompt, we find that a single feature is far more likely to be active at a single layer. For larger underlying models, we find that the cosine similarities between adjacent layers in the residual stream are higher, so we expect more features to be active at multiple layers. These results show that MLSAEs are a promising method to study information flow in transformers. We release our code to train and analyze MLSAEs at https://github.com/tim-lawson/mlsae.
- Abstract(参考訳): スパースオートエンコーダ(SAE)はトランスフォーマー言語モデルの内部表現を解釈するための有望なアプローチである。
しかし、標準的なSAEはトランス層ごとに個別に訓練されるため、レイヤ間の情報の流れを研究するのが困難である。
この問題を解決するために,各トランス層からの残ストリームアクティベーションベクトルを同時にトレーニングした単一SAEである多層SAE(MLSAE)を導入する。
残余ストリームは、通常、レイヤ間で情報を保存するものとして理解されるので、複数のレイヤでアクティブな個々のSAE機能を見つけることを期待し、期待しました。
興味深いことに、単一のSAE機能は異なるプロンプトのために異なるレイヤでアクティブであるが、単一のプロンプトでは単一の機能が単一のレイヤでアクティブになる可能性がはるかに高い。
大きな基盤となるモデルでは、残留ストリーム内の隣接層間のコサイン類似度が高くなるため、複数の層でより多くの機能がアクティブになることが期待できる。
これらの結果から,MLSAEは変圧器内の情報の流れを研究する上で有望な手法であることが示唆された。
コードをリリースして、https://github.com/tim-lawson/mlsae.comでMLSAEをトレーニングし分析します。
関連論文リスト
- FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Value Residual Learning For Alleviating Attention Concentration In Transformers [14.898656879574622]
複数の注意層を積み重ねると 注意集中につながる
この問題に対処する自然な方法の1つは、レイヤ横断の注意を使うことで、以前のレイヤからの情報を後続のレイヤに直接アクセス可能にすることである。
本稿では,第1層の値から第1層の値への残差接続を付加することにより,層間注意を近似する残差値(ResFormer)の変換器を提案する。
論文 参考訳(メタデータ) (2024-10-23T14:15:07Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。
本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文 参考訳(メタデータ) (2024-05-26T21:31:59Z) - Manifold-Preserving Transformers are Effective for Short-Long Range
Encoding [39.14128923434994]
マルチヘッドセルフアテンションベースのトランスフォーマーは、異なる学習タスクにおいて有望であることを示す。
本研究では,一対のトークン間の層間距離保存を理論的に保証するエンコーダモデルTransJectを提案する。
論文 参考訳(メタデータ) (2023-10-22T06:58:28Z) - JoMA: Demystifying Multilayer Transformers via JOint Dynamics of MLP and Attention [36.737750120893516]
多層トランスフォーマーのトレーニング手順を理解するための新しい数学的枠組みであるジョイント/アテンション(JoMA)ダイナミクスを提案する。
JoMAは、最初に注意が粗くなり(正則なトークンを学ぶために)、次に非線形なアクティベーションの存在下で(より正則なトークンを学ぶために)密集する、と予測する。
入力トークンが潜在階層生成モデルによって生成されるとき、トークンを結合して多層トランスフォーマーの階層を形成する方法を説明するためにJoMAを利用する。
論文 参考訳(メタデータ) (2023-10-01T01:21:35Z) - Learnable Polyphase Sampling for Shift Invariant and Equivariant
Convolutional Networks [120.78155051439076]
LPSは、データからエンドツーエンドにトレーニングし、既存の手作りのダウンサンプリングレイヤを一般化することができる。
画像分類とセマンティックセグメンテーションにおけるLPSの評価を行った。
論文 参考訳(メタデータ) (2022-10-14T17:59:55Z) - Layer Reduction: Accelerating Conformer-Based Self-Supervised Model via
Layer Consistency [31.572652956170252]
トランスフォーマーをベースとした自己教師型モデルは特徴抽出器として訓練され、多くの下流音声タスクで最先端のパフォーマンスを実現している。
従来のBERT法と同等の性能を維持しつつ、7.8Xパラメータの削減、41.9%のトレーニングスピードアップ、37.7%の推論スピードアップを実験的に達成した。
論文 参考訳(メタデータ) (2021-04-08T08:21:59Z) - Transformer Feed-Forward Layers Are Key-Value Memories [49.52087581977751]
トランス言語モデルにおけるフィードフォワード層がキーバリューメモリとして動作することを示す。
学習したパターンは人間と解釈可能であり、下層は浅いパターンをキャプチャする傾向にあり、上層はセマンティックなパターンを学ぶ傾向にある。
論文 参考訳(メタデータ) (2020-12-29T19:12:05Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。