論文の概要: A Provable Expressiveness Hierarchy in Hybrid Linear-Full Attention
- arxiv url: http://arxiv.org/abs/2602.01763v1
- Date: Mon, 02 Feb 2026 07:47:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.988992
- Title: A Provable Expressiveness Hierarchy in Hybrid Linear-Full Attention
- Title(参考訳): ハイブリッドリニアフルアテンションにおける確率的表現性階層
- Authors: Xiaowei Ye, Xiaoyu He, Chao Liao, Chen Wu, Pinyan Lu,
- Abstract要約: トランスフォーマーは現代の大言語モデルの基盤となっている。
完全な注意に対する表現力は厳密な理論的特徴を欠いている。
我々の研究は、ハイブリット・アテンションと標準フルアテンションの最初の証明可能な分離を提供し、異なるアテンション・メカニズムの基本的能力と限界を理解するための理論的視点を提供する。
- 参考スコア(独自算出の注目度): 13.144793724034761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers serve as the foundation of most modern large language models. To mitigate the quadratic complexity of standard full attention, various efficient attention mechanisms, such as linear and hybrid attention, have been developed. A fundamental gap remains: their expressive power relative to full attention lacks a rigorous theoretical characterization. In this work, we theoretically characterize the performance differences among these attention mechanisms. Our theory applies to all linear attention variants that can be formulated as a recurrence, including Mamba, DeltaNet, etc. Specifically, we establish an expressiveness hierarchy: for the sequential function composition-a multi-step reasoning task that must occur within a model's forward pass, an ($L+1$)-layer full attention network is sufficient, whereas any hybrid network interleaving $L-1$ layers of full attention with a substantially larger number ($2^{3L^2}$) of linear attention layers cannot solve it. This result demonstrates a clear separation in expressive power between the two types of attention. Our work provides the first provable separation between hybrid attention and standard full attention, offering a theoretical perspective for understanding the fundamental capabilities and limitations of different attention mechanisms.
- Abstract(参考訳): トランスフォーマーは現代の大言語モデルの基盤となっている。
標準的な全注意の二次的複雑さを軽減するため、線形・ハイブリッドといった様々な効率的な注意機構が開発されている。
完全な注意に対する表現力は厳密な理論的特徴を欠いている。
本研究では,これらの注意機構間の性能差を理論的に特徴づける。
我々の理論は、Mamba、DeltaNetなど、繰り返しとして定式化できるすべての線形アテンション変種に適用されます。
具体的には、連続関数合成-モデルの前方通過内で発生しなければならない多段階推論タスクに対して、(L+1$)層フルアテンションネットワークが十分であるのに対して、線形アテンション層のより大きい数(2^{3L^2}$)でフルアテンション層をインターリーブするハイブリッドネットワークでは、それを解決することができない。
この結果は,2種類の注意力間の表現力の明確な分離を示す。
我々の研究は、ハイブリット・アテンションと標準フルアテンションの最初の証明可能な分離を提供し、異なるアテンション・メカニズムの基本的能力と限界を理解するための理論的視点を提供する。
関連論文リスト
- TensorLens: End-to-End Transformer Analysis via High-Order Attention Tensors [53.891337639229285]
高次アテンション・インタラクション接続を通して表現された入力依存線形演算子として変換器全体をキャプチャする新しい定式化である attentionLens を導入する。
本実験は,注目テンソルが,解釈可能性とモデル理解を目的としたツール開発のための強力な基盤となることを実証した。
論文 参考訳(メタデータ) (2026-01-25T19:21:25Z) - Bridging the Divide: Reconsidering Softmax and Linear Attention [116.34723260730405]
線形注意の限界を理解し緩和する2つの重要な視点を提示する。
線形注意は単射ではなく、異なるクエリベクトルに同一の注意重みを割り当てる傾向があることを証明した。
第2に,線形の注意が不足するソフトマックスの注意を成功させるためには,効果的な局所モデリングが不可欠であることを確認した。
論文 参考訳(メタデータ) (2024-12-09T15:44:22Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Compositional Attention: Disentangling Search and Retrieval [66.7108739597771]
Multi-head, key-value attention は Transformer モデルとそのバリエーションのバックボーンである。
標準的なアテンションヘッドは、検索と検索の間の厳密なマッピングを学ぶ。
本稿では,標準ヘッド構造を置き換える新しいアテンション機構であるコンポジションアテンションアテンションを提案する。
論文 参考訳(メタデータ) (2021-10-18T15:47:38Z) - Attention is Not All You Need: Pure Attention Loses Rank Doubly
Exponentially with Depth [48.16156149749371]
この研究は、自己注意ネットワークを理解するための新しい方法を提案する。
それらの出力は、より小さな項の和に分解できることを示す。
我々は、自己意識が「トークン」に対して強い帰納的偏見を持っていることを証明している。
論文 参考訳(メタデータ) (2021-03-05T00:39:05Z) - Repulsive Attention: Rethinking Multi-head Attention as Bayesian
Inference [68.12511526813991]
ベイズの視点からの多面的注目の新たな理解を提供する。
マルチヘッドアテンションにおける反発性を明示的に改善する非パラメトリックアプローチを提案する。
様々な注意モデルや応用実験により、提案された反発的注意が学習された特徴の多様性を向上させることが示されている。
論文 参考訳(メタデータ) (2020-09-20T06:32:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。