論文の概要: Partially Rewriting a Transformer in Natural Language
- arxiv url: http://arxiv.org/abs/2501.18838v1
- Date: Fri, 31 Jan 2025 01:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:03:23.803983
- Title: Partially Rewriting a Transformer in Natural Language
- Title(参考訳): 自然言語変換器を部分的に書き換える
- Authors: Gonçalo Paulo, Nora Belrose,
- Abstract要約: 簡単な自然言語の説明を用いて,大規模な言語モデルを部分的に書き直そうと試みる。
我々は、このスパースの最初の層を、各ニューロンの活性化を予測するLCMベースのシミュレーターで置き換える。
これらの修正がモデルの最終出力を歪める程度を測定する。
- 参考スコア(独自算出の注目度): 0.7234862895932991
- License:
- Abstract: The greatest ambition of mechanistic interpretability is to completely rewrite deep neural networks in a format that is more amenable to human understanding, while preserving their behavior and performance. In this paper, we attempt to partially rewrite a large language model using simple natural language explanations. We first approximate one of the feedforward networks in the LLM with a wider MLP with sparsely activating neurons - a transcoder - and use an automated interpretability pipeline to generate explanations for these neurons. We then replace the first layer of this sparse MLP with an LLM-based simulator, which predicts the activation of each neuron given its explanation and the surrounding context. Finally, we measure the degree to which these modifications distort the model's final output. With our pipeline, the model's increase in loss is statistically similar to entirely replacing the sparse MLP output with the zero vector. We employ the same protocol, this time using a sparse autoencoder, on the residual stream of the same layer and obtain similar results. These results suggest that more detailed explanations are needed to improve performance substantially above the zero ablation baseline.
- Abstract(参考訳): 機械的解釈可能性の最大の野望は、深いニューラルネットワークを人間の理解に適するフォーマットで完全に書き直すことであり、その振舞いと性能を保っている。
本稿では,簡単な自然言語記述を用いて,大規模な言語モデルを部分的に書き直そうとする。
まずLLMのフィードフォワードネットワークの1つを、より広いMLPで近似し、スムーズな活性化ニューロン(トランスコーダ)と自動解釈可能性パイプラインを用いて、これらのニューロンの説明を生成する。
次に、このスパースMLPの第1層をLSMベースのシミュレータで置き換え、その説明と周囲の文脈から各ニューロンの活性化を予測する。
最後に、これらの修正がモデルの最終出力を歪める程度を測定する。
我々のパイプラインでは、モデルの損失の増加は、スパースMLP出力を完全にゼロベクトルに置き換えることと統計的に類似している。
我々は、同じ層の残ストリーム上にスパースオートエンコーダを用いて、同じプロトコルを使用し、同様の結果を得る。
これらの結果から,ゼロアブレーションベースライン以上の性能向上には,より詳細な説明が必要であることが示唆された。
関連論文リスト
- FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Transcoders Find Interpretable LLM Feature Circuits [1.4254279830438588]
サブレイヤを通して回路解析を行うためにトランスコーダを用いる新しい手法を提案する。
120M, 410M, 1.4Bパラメータを持つ言語モデル上でトランスコーダを訓練し, 疎さ, 忠実さ, 人間の解釈可能性の観点から, 少なくともSAEに匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-06-17T17:49:00Z) - Transformers need glasses! Information over-squashing in language tasks [18.81066657470662]
復号器のみの変換器における情報伝達について検討する。
変換器への入力の特定のシーケンスは、最終的なトークンにおいて任意にクローズな表現が得られることを示す。
また,デコーダのみのトランスフォーマー言語モデルでは,入力中の特定のトークンに対する感度が低下することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:14:44Z) - Return of the RNN: Residual Recurrent Networks for Invertible Sentence
Embeddings [0.0]
本研究では、教師なし符号化タスクで訓練された残効再帰ネットワークを用いて、非可逆文埋め込みのための新しいモデルを提案する。
ニューラルネットワーク翻訳モデルに共通する確率的出力ではなく、回帰に基づく出力層を用いて入力シーケンスのワードベクトルを再構成する。
RNNはLSTMや2次最適化法などのメモリユニットを必要とすることを考えると、このモデルはADAMによる高精度かつ高速なトレーニングを実現している。
論文 参考訳(メタデータ) (2023-03-23T15:59:06Z) - Why do Nearest Neighbor Language Models Work? [93.71050438413121]
言語モデル(LM)は、すでに見られる文脈の表現を逐次計算することで、テキストの確率を計算する。
Retrieval-augmented LMは、大規模なデータストアから取得した情報にアクセスすることによって、標準的なニューラルLMよりも改善されている。
論文 参考訳(メタデータ) (2023-01-07T11:12:36Z) - Transformer Feed-Forward Layers Build Predictions by Promoting Concepts
in the Vocabulary Space [49.029910567673824]
トランスフォーマーベース言語モデル(LM)は現代のNLPの中核にあるが、内部予測構築プロセスは不透明であり、ほとんど理解されていない。
我々は、フィードフォワードネットワーク(FFN)層の動作をリバースエンジニアリングすることで、この基盤となる予測プロセスの公開に向けて大きな一歩を踏み出した。
論文 参考訳(メタデータ) (2022-03-28T12:26:00Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文 参考訳(メタデータ) (2021-04-08T02:18:47Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Glancing Transformer for Non-Autoregressive Neural Machine Translation [58.87258329683682]
単一パス並列生成モデルにおける単語相互依存の学習法を提案する。
単一パスの並列デコードだけで、GLATは8~15倍のスピードアップで高品質な翻訳を生成することができる。
論文 参考訳(メタデータ) (2020-08-18T13:04:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。