論文の概要: Residual Stream Analysis with Multi-Layer SAEs
- arxiv url: http://arxiv.org/abs/2409.04185v1
- Date: Fri, 6 Sep 2024 11:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 16:05:19.655551
- Title: Residual Stream Analysis with Multi-Layer SAEs
- Title(参考訳): 多層SAEを用いた残留流解析
- Authors: Tim Lawson, Lucy Farnik, Conor Houghton, Laurence Aitchison,
- Abstract要約: 各トランス層からの残ストリーム活性化ベクトルを同時にトレーニングした単一SAEである多層SAEを紹介する。
大きな基盤となるモデルでは、残留ストリーム内の隣接層間のコサイン類似度が高くなるため、複数の層でより多くの機能がアクティブになることが期待できる。
これらの結果から,MLSAEは変圧器内の情報の流れを研究する上で有望な手法であることが示唆された。
- 参考スコア(独自算出の注目度): 21.142967037533175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) are a promising approach to interpreting the internal representations of transformer language models. However, standard SAEs are trained separately on each transformer layer, making it difficult to use them to study how information flows across layers. To solve this problem, we introduce the multi-layer SAE (MLSAE): a single SAE trained on the residual stream activation vectors from every transformer layer simultaneously. The residual stream is usually understood as preserving information across layers, so we expected to, and did, find individual SAE features that are active at multiple layers. Interestingly, while a single SAE feature is active at different layers for different prompts, for a single prompt, we find that a single feature is far more likely to be active at a single layer. For larger underlying models, we find that the cosine similarities between adjacent layers in the residual stream are higher, so we expect more features to be active at multiple layers. These results show that MLSAEs are a promising method to study information flow in transformers. We release our code to train and analyze MLSAEs at https://github.com/tim-lawson/mlsae.
- Abstract(参考訳): スパースオートエンコーダ(SAE)はトランスフォーマー言語モデルの内部表現を解釈するための有望なアプローチである。
しかし、標準的なSAEはトランス層ごとに個別に訓練されるため、レイヤ間の情報の流れを研究するのが困難である。
この問題を解決するために,各トランス層からの残ストリームアクティベーションベクトルを同時にトレーニングした単一SAEである多層SAE(MLSAE)を導入する。
残余ストリームは、通常、レイヤ間で情報を保存するものとして理解されるので、複数のレイヤでアクティブな個々のSAE機能を見つけることを期待し、期待しました。
興味深いことに、単一のSAE機能は異なるプロンプトのために異なるレイヤでアクティブであるが、単一のプロンプトでは単一の機能が単一のレイヤでアクティブになる可能性がはるかに高い。
大きな基盤となるモデルでは、残留ストリーム内の隣接層間のコサイン類似度が高くなるため、複数の層でより多くの機能がアクティブになることが期待できる。
これらの結果から,MLSAEは変圧器内の情報の流れを研究する上で有望な手法であることが示唆された。
コードをリリースして、https://github.com/tim-lawson/mlsae.comでMLSAEをトレーニングし分析します。
関連論文リスト
- Looking into Black Box Code Language Models [2.5324062203985935]
私たちは、最先端の2つのコードLM、Codegen-MonoとPloycoderを使用し、Java、Go、Pythonの3つの広く使われているプログラミング言語を使用します。
CodeLMの性能を損なうことなく、フィードフォワード層内で興味ある概念を編集できることを示す。
論文 参考訳(メタデータ) (2024-07-05T21:13:41Z) - Interpreting Attention Layer Outputs with Sparse Autoencoders [3.201633659481912]
モデルアクティベーションを解釈可能なコンポーネントに分解することは、機械的解釈可能性において鍵となるオープンな問題である。
この作業では、注意層出力でSAEをトレーニングし、ここでもSAEがスパースで解釈可能な分解を見つけることを示す。
Sparse Autoencodersは、研究者が以前の作業よりも詳細にモデル動作を説明するのに役立つツールであることを示す。
論文 参考訳(メタデータ) (2024-06-25T17:43:13Z) - RigLSTM: Recurrent Independent Grid LSTM for Generalizable Sequence
Learning [75.61681328968714]
本稿では,対象タスクの基盤となるモジュール構造を利用するために,リカレントな独立したGrid LSTM(RigLSTM)を提案する。
本モデルでは, セル選択, 入力特徴選択, 隠れ状態選択, ソフト状態更新を採用し, より優れた一般化を実現する。
論文 参考訳(メタデータ) (2023-11-03T07:40:06Z) - Jump to Conclusions: Short-Cutting Transformers With Linear Transformations [60.37563766047492]
トランスフォーマーベースの言語モデルは、各層で入力の隠れ表現を生成するが、予測には最終層表現のみを使用する。
これは、モデルの内部決定過程と、その中間表現の有用性を曖昧にする。
線形変換を用いた簡単な鋳造法を提案する。
論文 参考訳(メタデータ) (2023-03-16T16:10:16Z) - Depth-Wise Attention (DWAtt): A Layer Fusion Method for Data-Efficient Classification [11.730822193746826]
そこで本研究では,DWAtt(Depth-Wise Attention)と呼ばれる新しい層融合法を提案する。
本研究では,DWAttを基本結合型層融合法(Concat)と比較し,より深いモデルベースラインと比較する。
以上の結果から,DWAttとConcatはベースラインよりもステップ効率が高く,サンプル効率が高いことが示唆された。
論文 参考訳(メタデータ) (2022-09-30T01:39:55Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - Layer Reduction: Accelerating Conformer-Based Self-Supervised Model via
Layer Consistency [31.572652956170252]
トランスフォーマーをベースとした自己教師型モデルは特徴抽出器として訓練され、多くの下流音声タスクで最先端のパフォーマンスを実現している。
従来のBERT法と同等の性能を維持しつつ、7.8Xパラメータの削減、41.9%のトレーニングスピードアップ、37.7%の推論スピードアップを実験的に達成した。
論文 参考訳(メタデータ) (2021-04-08T08:21:59Z) - IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。
当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文 参考訳(メタデータ) (2021-03-05T03:44:42Z) - Rewiring the Transformer with Depth-Wise LSTMs [55.50278212605607]
カスケードトランスとサブ層を接続する奥行きLSTMを用いたトランスフォーマーを提案する。
6層トランスを用いた実験では、WMT 14英語/ドイツ語/フランス語タスクとOPUS-100多言語NMTタスクの両方でBLEUが大幅に改善された。
論文 参考訳(メタデータ) (2020-07-13T09:19:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。