論文の概要: Attention Retrieves, MLP Memorizes: Disentangling Trainable Components in the Transformer
- arxiv url: http://arxiv.org/abs/2506.01115v1
- Date: Sun, 01 Jun 2025 18:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.93953
- Title: Attention Retrieves, MLP Memorizes: Disentangling Trainable Components in the Transformer
- Title(参考訳): Attention Retrieves, MLP Memorizes: Transformerにおけるトレーニング可能なコンポーネントの分離
- Authors: Yihe Dong, Lorenzo Noci, Mikhail Khodak, Mufan Li,
- Abstract要約: Transformerアーキテクチャは、現代の大規模言語モデルの成功の中心である。
Transformerのコアコンポーネントは自己アテンションメカニズムですが、パフォーマンス向上のどの面、どの面がそれに起因するのか疑問に思っています。
- 参考スコア(独自算出の注目度): 19.36946128510059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Transformer architecture is central to the success of modern Large Language Models (LLMs), in part due to its surprising ability to perform a wide range of algorithmic tasks -- including mathematical reasoning, memorization, and retrieval -- using only gradient-based training on next-token prediction. While the core component of a Transformer is the self-attention mechanism, we question how much, and which aspects, of the performance gains can be attributed to it. To this end, we compare standard Transformers to variants in which either the multi-layer perceptron (MLP) layers or the attention projectors (queries and keys) are frozen at initialization. To further isolate the contribution of attention, we introduce MixiT -- the Mixing Transformer -- a simplified, principled model in which the attention coefficients are entirely random and fixed at initialization, eliminating any input-dependent computation or learning in attention. Surprisingly, we find that MixiT matches the performance of fully trained Transformers on various algorithmic tasks, especially those involving basic arithmetic or focusing heavily on memorization. For retrieval-based tasks, we observe that having input-dependent attention coefficients is consistently beneficial, while MixiT underperforms. We attribute this failure to its inability to form specialized circuits such as induction heads -- a specific circuit known to be crucial for learning and exploiting repeating patterns in input sequences. Even more interestingly, we find that attention with frozen key and query projectors is not only able to form induction heads, but can also perform competitively on language modeling. Our results underscore the importance of architectural heterogeneity, where distinct components contribute complementary inductive biases crucial for solving different classes of tasks.
- Abstract(参考訳): Transformerアーキテクチャは、最近のLarge Language Models (LLMs) の成功の中心であり、その一部は、数学的な推論、記憶、検索を含む広範囲のアルゴリズムタスクを実行する驚くべき能力のためである。
Transformerのコアコンポーネントは自己アテンションメカニズムですが、パフォーマンス向上のどの面、どの面がそれに起因するのか疑問に思っています。
この目的のために,マルチ層パーセプトロン (MLP) 層とアテンションプロジェクタ (クエリとキー) が初期化時に凍結される変種との比較を行った。
注意の寄与をさらに分離するために、MixiT -- Mixing Transformer -- 注意係数が完全にランダムで初期化時に固定され、入力依存の計算や注意の学習が不要となる単純化された基本モデルを導入する。
意外なことに、MixiTは様々なアルゴリズムタスク、特に基本的な算術や暗記に重きを置いているタスクにおいて、完全に訓練されたトランスフォーマーの性能と一致している。
検索に基づくタスクでは、MixiTは性能が劣る一方、入出力依存の注意係数が常に有益であることが観察される。
この障害は、入力シーケンスにおける繰り返しパターンの学習と活用に不可欠であることが知られている特定の回路であるインダクションヘッドのような特殊な回路を形成することができないためである。
さらに興味深いことに、フリーズキーとクエリプロジェクタによる注意は、誘導ヘッドを形成するだけでなく、言語モデリングに競争力を持たせることができる。
この結果から,異なるタスクのクラスを解く上で重要な相補的帰納的バイアスに,異なるコンポーネントが寄与するアーキテクチャ的不均一性の重要性が浮き彫りになった。
関連論文リスト
- Transformers as Unsupervised Learning Algorithms: A study on Gaussian Mixtures [10.970776446566909]
本稿では,教師なし学習問題の解法における変圧器の機能について検討する。
複数のGMMタスクを同時に学習するTGMMというトランスフォーマーベースの学習フレームワークを提案する。
我々は、変換器がスペクトル法のEMアルゴリズムとコア成分の両方を近似できることを証明した。
論文 参考訳(メタデータ) (2025-05-17T09:02:18Z) - On-Chip Learning via Transformer In-Context Learning [0.9353041869660692]
自己アテンションメカニズムでは、各ステップでメインメモリから事前トークンプロジェクションを転送する必要がある。
オンチップの塑性プロセッサを用いて自己注意を計算したニューロモルフィックデコーダのみのトランスモデルを提案する。
論文 参考訳(メタデータ) (2024-10-11T10:54:09Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Sharing Key Semantics in Transformer Makes Efficient Image Restoration [148.22790334216117]
視覚変換器(ViT)の基盤となる自己注意機構は、すべてのグローバルな手がかりを包含する傾向がある。
劣化した画像の小さな部分、特にセマンティックに密に整合した部分では、回復プロセスを支援するために特に関連する情報を提供する。
本稿では, IR(e, SemanIR) 用の Transformer を通じて鍵セマンティクスを共有することで, IR の性能向上を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:45:34Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。