論文の概要: Residual Stream Analysis with Multi-Layer SAEs
- arxiv url: http://arxiv.org/abs/2409.04185v2
- Date: Mon, 07 Oct 2024 11:54:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:42:37.938819
- Title: Residual Stream Analysis with Multi-Layer SAEs
- Title(参考訳): 多層SAEを用いた残留流解析
- Authors: Tim Lawson, Lucy Farnik, Conor Houghton, Laurence Aitchison,
- Abstract要約: 各トランス層からの残ストリーム活性化ベクトルをトレーニングした単一SAEであるMLSAE(Multi-layer SAE)を導入する。
個々のラテントが特定のトークンやプロンプトの単一の層でアクティブになることが多いが、この層は異なるトークンやプロンプトに対して異なる場合がある。
より大きな基盤モデルでは、複数の層でラテントの活性度が増加するが、これは隣接する層での残留ストリーム活性化ベクトルがより類似しているという事実と一致している。
- 参考スコア(独自算出の注目度): 21.142967037533175
- License:
- Abstract: Sparse autoencoders (SAEs) are a promising approach to interpreting the internal representations of transformer language models. However, SAEs are usually trained separately on each transformer layer, making it difficult to use them to study how information flows across layers. To solve this problem, we introduce the multi-layer SAE (MLSAE): a single SAE trained on the residual stream activation vectors from every transformer layer. Given that the residual stream is understood to preserve information across layers, we expected MLSAE latents to `switch on' at a token position and remain active at later layers. Interestingly, we find that individual latents are often active at a single layer for a given token or prompt, but this layer may differ for different tokens or prompts. We quantify these phenomena by defining a distribution over layers and considering its variance. We find that the variance of the distributions of latent activations over layers is about two orders of magnitude greater when aggregating over tokens compared with a single token. For larger underlying models, the degree to which latents are active at multiple layers increases, which is consistent with the fact that the residual stream activation vectors at adjacent layers become more similar. Finally, we relax the assumption that the residual stream basis is the same at every layer by applying pre-trained tuned-lens transformations, but our findings remain qualitatively similar. Our results represent a new approach to understanding how representations change as they flow through transformers. We release our code to train and analyze MLSAEs at https://github.com/tim-lawson/mlsae.
- Abstract(参考訳): スパースオートエンコーダ(SAE)はトランスフォーマー言語モデルの内部表現を解釈するための有望なアプローチである。
しかしながら、SAEは通常、各トランス層で個別にトレーニングされるため、レイヤ間の情報の流れを研究するのが困難である。
この問題を解決するために,各トランス層からの残ストリームアクティベーションベクトルをトレーニングした単一SAEである多層SAE(MLSAE)を導入する。
残余ストリームがレイヤ間で情報を保存するように理解されていることを考慮すれば、MLSAEラテントはトークン位置で“switch on”を期待して、後続のレイヤでアクティブなままです。
興味深いことに、個々のラテントが特定のトークンやプロンプトの単一の層でアクティブであることが多いが、この層は異なるトークンやプロンプトに対して異なる場合がある。
層上の分布を定義し,その分散を考慮し,これらの現象を定量化する。
層上での潜伏活性化の分布のばらつきは, 単一トークンに比べて, トークンを集積する場合の約2桁の差が大きいことがわかった。
より大きな基盤モデルでは、複数の層でラテントの活性度が増加するが、これは隣接する層での残留ストリーム活性化ベクトルがより類似しているという事実と一致している。
最後に,事前学習したチューリングレンズ変換を適用することで,残差ストリーム基底が各層で同じであるという仮定を緩和するが,その結果は定性的に類似している。
この結果は,トランスを流れるとき,表現がどのように変化するかを理解するための新しいアプローチを示す。
コードをリリースして、https://github.com/tim-lawson/mlsae.comでMLSAEをトレーニングし分析します。
関連論文リスト
- Looking into Black Box Code Language Models [2.5324062203985935]
私たちは、最先端の2つのコードLM、Codegen-MonoとPloycoderを使用し、Java、Go、Pythonの3つの広く使われているプログラミング言語を使用します。
CodeLMの性能を損なうことなく、フィードフォワード層内で興味ある概念を編集できることを示す。
論文 参考訳(メタデータ) (2024-07-05T21:13:41Z) - Interpreting Attention Layer Outputs with Sparse Autoencoders [3.201633659481912]
モデルアクティベーションを解釈可能なコンポーネントに分解することは、機械的解釈可能性において鍵となるオープンな問題である。
この作業では、注意層出力でSAEをトレーニングし、ここでもSAEがスパースで解釈可能な分解を見つけることを示す。
Sparse Autoencodersは、研究者が以前の作業よりも詳細にモデル動作を説明するのに役立つツールであることを示す。
論文 参考訳(メタデータ) (2024-06-25T17:43:13Z) - RigLSTM: Recurrent Independent Grid LSTM for Generalizable Sequence
Learning [75.61681328968714]
本稿では,対象タスクの基盤となるモジュール構造を利用するために,リカレントな独立したGrid LSTM(RigLSTM)を提案する。
本モデルでは, セル選択, 入力特徴選択, 隠れ状態選択, ソフト状態更新を採用し, より優れた一般化を実現する。
論文 参考訳(メタデータ) (2023-11-03T07:40:06Z) - Jump to Conclusions: Short-Cutting Transformers With Linear Transformations [60.37563766047492]
トランスフォーマーベースの言語モデルは、各層で入力の隠れ表現を生成するが、予測には最終層表現のみを使用する。
これは、モデルの内部決定過程と、その中間表現の有用性を曖昧にする。
線形変換を用いた簡単な鋳造法を提案する。
論文 参考訳(メタデータ) (2023-03-16T16:10:16Z) - Depth-Wise Attention (DWAtt): A Layer Fusion Method for Data-Efficient Classification [11.730822193746826]
そこで本研究では,DWAtt(Depth-Wise Attention)と呼ばれる新しい層融合法を提案する。
本研究では,DWAttを基本結合型層融合法(Concat)と比較し,より深いモデルベースラインと比較する。
以上の結果から,DWAttとConcatはベースラインよりもステップ効率が高く,サンプル効率が高いことが示唆された。
論文 参考訳(メタデータ) (2022-09-30T01:39:55Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - Layer Reduction: Accelerating Conformer-Based Self-Supervised Model via
Layer Consistency [31.572652956170252]
トランスフォーマーをベースとした自己教師型モデルは特徴抽出器として訓練され、多くの下流音声タスクで最先端のパフォーマンスを実現している。
従来のBERT法と同等の性能を維持しつつ、7.8Xパラメータの削減、41.9%のトレーニングスピードアップ、37.7%の推論スピードアップを実験的に達成した。
論文 参考訳(メタデータ) (2021-04-08T08:21:59Z) - IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。
当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文 参考訳(メタデータ) (2021-03-05T03:44:42Z) - Rewiring the Transformer with Depth-Wise LSTMs [55.50278212605607]
カスケードトランスとサブ層を接続する奥行きLSTMを用いたトランスフォーマーを提案する。
6層トランスを用いた実験では、WMT 14英語/ドイツ語/フランス語タスクとOPUS-100多言語NMTタスクの両方でBLEUが大幅に改善された。
論文 参考訳(メタデータ) (2020-07-13T09:19:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。