論文の概要: Is Random Attention Sufficient for Sequence Modeling? Disentangling Trainable Components in the Transformer
- arxiv url: http://arxiv.org/abs/2506.01115v3
- Date: Wed, 03 Sep 2025 19:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 14:03:58.747614
- Title: Is Random Attention Sufficient for Sequence Modeling? Disentangling Trainable Components in the Transformer
- Title(参考訳): シーケンスモデリングにおけるランダムアテンションは十分か? : 変圧器におけるトレーニング可能なコンポーネントの分離
- Authors: Yihe Dong, Lorenzo Noci, Mikhail Khodak, Mufan Li,
- Abstract要約: フリーズキーとクエリの重み付けによる注意は、言語モデリングにおいて競合的に機能することを示す。
また、完全にランダムなアテンションスコアを持つアーキテクチャであるMixiTを設計し、確実に安定した信号伝搬を実現した。
以上の結果から,トランスアーキテクチャは特殊回路形成に対する帰納バイアスが組み込まれていることが示唆された。
- 参考スコア(独自算出の注目度): 15.196937229815445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transformer architecture is central to the success of modern Large Language Models (LLMs), in part due to its surprising ability to perform a wide range of tasks - including mathematical reasoning, memorization, and retrieval - using only gradient-based learning on next-token prediction. While the core component of a transformer is the self-attention mechanism, we question how much, and which aspects, of the performance gains can be attributed to it. To this end, we compare standard transformers to variants in which either the MLP layers or the attention weights are frozen at initialization. Surprisingly, we find that attention with frozen key and query weights is not only able to form induction heads, but can also perform competitively on language modeling. We formalize this by proving a new expressivity result for transformer models with frozen key and query weights. To further isolate the contribution of attention, we design MixiT, an architecture with entirely random attention scores, with provably stable signal propagation that overcomes prior depth-wise scaling challenges in random transformers. We use the successes and failures of MixiT to understand the role each transformer component plays, such as attention being largely responsible for in-context reasoning, and MLPs being responsible for, but collaborates with attention, on knowledge storage. Our results suggest that the transformer architecture has a built-in inductive bias towards forming specialized circuits, as it does even without learnable attention weights.
- Abstract(参考訳): トランスフォーマーアーキテクチャは現代のLarge Language Models(LLM)の成功の中心であり、その一部は、数学的推論、暗記、検索など幅広いタスクを次から次まで予測した勾配に基づく学習で実行するという驚くべき能力のためである。
変圧器のコアコンポーネントが自己保持機構であるのに対して、パフォーマンス向上のどの面、どの面がそれに起因しているかを疑問視する。
この目的のために、標準変圧器とMLP層とアテンション重みが初期化時に凍結される変圧器を比較した。
驚いたことに、フリーズキーとクエリの重み付けによる注意は、誘導ヘッドを形成するだけでなく、言語モデリングにおいて競合的に実行可能である。
凍結鍵およびクエリ重み付き変圧器モデルに対する新しい表現性結果の証明によりこれを定式化する。
注意の寄与をさらに分離するために,無作為な注意スコアを持つアーキテクチャであるMixiTを設計した。
我々はMixiTの成功と失敗を利用して、各トランスフォーマーコンポーネントが果たす役割を理解する。例えば、インコンテキスト推論に主に責任を持つ注意や、知識記憶に注意を払っているが、協調しているMLPなどである。
以上の結果から,トランスアーキテクチャは,学習可能な注意重みを伴わずとも,特別な回路を形成するための帰納的バイアスが組み込まれていることが示唆された。
関連論文リスト
- Provable In-Context Learning of Nonlinear Regression with Transformers [58.018629320233174]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。
最近の研究はICLの背後にあるトレーニングダイナミクスを積極的に探求している。
本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文 参考訳(メタデータ) (2025-07-28T00:09:28Z) - On the Existence of Universal Simulators of Attention [17.01811978811789]
注意出力と基礎となる基本行列を同一に再現し、RASPを介してアクティベーション操作を行う方法を提案する。
我々の証明は、これまで学習によってのみ近似することが知られていたアルゴリズムによって達成可能なデータ非依存の解の存在を初めて示すものである。
論文 参考訳(メタデータ) (2025-06-23T15:15:25Z) - Transformers as Unsupervised Learning Algorithms: A study on Gaussian Mixtures [10.970776446566909]
本稿では,教師なし学習問題の解法における変圧器の機能について検討する。
複数のGMMタスクを同時に学習するTGMMというトランスフォーマーベースの学習フレームワークを提案する。
我々は、変換器がスペクトル法のEMアルゴリズムとコア成分の両方を近似できることを証明した。
論文 参考訳(メタデータ) (2025-05-17T09:02:18Z) - How Transformers Learn Regular Language Recognition: A Theoretical Study on Training Dynamics and Implicit Bias [48.9399496805422]
我々は「偶対」と「パリティチェック」と呼ばれる正規言語認識のカテゴリにおける2つの代表的タスクに焦点をあてる。
我々のゴールは、注意層と線形層からなる一層トランスフォーマーが、これらの課題をいかに解決するかを探求することである。
論文 参考訳(メタデータ) (2025-05-02T00:07:35Z) - On-Chip Learning via Transformer In-Context Learning [0.9353041869660692]
自己アテンションメカニズムでは、各ステップでメインメモリから事前トークンプロジェクションを転送する必要がある。
オンチップの塑性プロセッサを用いて自己注意を計算したニューロモルフィックデコーダのみのトランスモデルを提案する。
論文 参考訳(メタデータ) (2024-10-11T10:54:09Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Sharing Key Semantics in Transformer Makes Efficient Image Restoration [148.22790334216117]
視覚変換器(ViT)の基盤となる自己注意機構は、すべてのグローバルな手がかりを包含する傾向がある。
劣化した画像の小さな部分、特にセマンティックに密に整合した部分では、回復プロセスを支援するために特に関連する情報を提供する。
本稿では, IR(e, SemanIR) 用の Transformer を通じて鍵セマンティクスを共有することで, IR の性能向上を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:45:34Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。