論文の概要: Superlinear Multi-Step Attention
- arxiv url: http://arxiv.org/abs/2601.18401v1
- Date: Mon, 26 Jan 2026 11:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.809303
- Title: Superlinear Multi-Step Attention
- Title(参考訳): 超線形マルチステップ注意
- Authors: Yufeng Huang,
- Abstract要約: 超線形アテンションは、標準的な因果自己アテンションを、N$ステップの多段階探索問題として再定義する。
超線形アテンションは、標準的な因果自己アテンションを、N$ステップの多段階探索問題として再定義する。
- 参考スコア(独自算出の注目度): 8.782622621289251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose \textbf{Superlinear attention}, a fully trainable multi-step attention architecture that achieves subquadratic complexity for long sequences while preserving \textbf{random context access} (a.k.a.\ structural non-exclusion): no eligible token position is structurally excluded from being selected for attention. Superlinear attention reformulates standard causal self-attention as a multi-step search problem with $N$ steps, yielding an overall complexity of $O(L^{1+\frac{1}{N}})$. To illustrate the architecture, we present a baseline $N=2$ implementation, which is algorithmically analogous to standard jump search. In this $O(L^{3/2})$ instantiation, the first step performs $O(L^{3/2})$ span-search to select relevant spans of the sequence, and the second step applies $O(L^{3/2})$ span-attention (standard attention restricted to the selected spans). In an upscaled $O(L^{1.54})$ configuration for robustness, we achieve an average decoding throughput of 114 tokens/sec at 1M context length and 80 tokens/sec at 10M context in our implementation on a modified 30B hybrid MoE model on a single B200 GPU. With limited training, we also obtain strong performance on the NIAH (Needle In A Haystack) task up to 256K context length, demonstrating that the routed span selection is learnable end-to-end. This paper emphasizes architectural formulation, scaling analysis, and systems feasibility, and presents initial validation; comprehensive quality evaluations across diverse long-context tasks are left to future work.
- Abstract(参考訳): 本稿では,長周期のサブクアッドラティックな複雑さを実現するための,完全トレーニング可能な多段階アテンションアーキテクチャである \textbf{Superlinear attention} を提案する。
超線形注意(Superlinear attention)は、標準的な因果自己注意を、$N$のステップを持つ多段階探索問題として再定義し、全体的な複雑さは$O(L^{1+\frac{1}{N}})$となる。
アーキテクチャを説明するために,標準ジャンプサーチとアルゴリズム的に類似したベースライン$N=2$実装を提案する。
この$O(L^{3/2})$インスタンス化において、第1のステップは、シーケンスの関連するスパンを選択するために$O(L^{3/2})$ span-searchを実行し、第2のステップは$O(L^{3/2})$ span-attention(選択したスパンに制限された標準的な注意)を適用する。
1Mのコンテキスト長で114トークン/秒,10Mのコンテキストで80トークン/秒の平均復号スループットを実現する。
NIAH(Needle In A Haystack)タスクのコンテキスト長256Kまでの性能も向上し、ルーティングされたスパン選択がエンドツーエンドで学習可能であることを示す。
本稿では、アーキテクチャの定式化、スケーリング分析、システムの実現性を強調し、初期検証を行う。
関連論文リスト
- Accelerated Evolving Set Processes for Local PageRank Computation [75.54334100808022]
この研究は、パーソナライズされたPageRank計算を高速化するために、ネストした進化したセットプロセスに基づく新しいフレームワークを提案する。
このような局所化手法の時間複雑性は、PPRベクトルの$epsilon$-approximationを得るために$mintildemathcalO(R2/epsilon2), tildemathcalO(m)$によって上界となることを示す。
論文 参考訳(メタデータ) (2025-10-09T09:47:40Z) - ILRe: Intermediate Layer Retrieval for Context Compression in Causal Language Models [4.951427498576812]
ILRe(Intermediate Layer Retrieval)と呼ばれる新しいコンテキスト圧縮パイプラインを導入する。
ILReは、チャンクされたプリフィルをその層にだけストリーミングすることでコンテキストをエンコードし、入力クエリと指定された層のフルキーキャッシュの間のアテンションスコアによってトークンをリコールする。
追加のポストトレーニングやオペレータ開発がなければ、ILReは100万ドルのトークン要求を30分以内で処理できる。
論文 参考訳(メタデータ) (2025-08-25T10:59:02Z) - From Continual Learning to SGD and Back: Better Rates for Continual Linear Models [50.11453013647086]
以前見られたタスクの損失を、$k$の繰り返しの後、忘れること、すなわち、分析する。
実現可能な最小二乗の設定において、新しい最上界を創出する。
我々は、タスクを繰り返しないランダム化だけで、十分に長いタスクシーケンスで破滅的な事態を防げることを初めて証明した。
論文 参考訳(メタデータ) (2025-04-06T18:39:45Z) - Uncovering Untapped Potential in Sample-Efficient World Model Agents [51.65485693709418]
Simulusは高度にモジュール化されたTBWMエージェントで、マルチモーダルトークン化フレームワーク、本質的なモチベーション、優先順位付けされたWMリプレイ、レグレッション・アズ・クラス化を統合している。
Simulusは3つの異なるベンチマークで、計画自由なWMに対して最先端のサンプル効率を達成する。
論文 参考訳(メタデータ) (2025-02-17T08:06:10Z) - ZETA: Leveraging Z-order Curves for Efficient Top-k Attention [22.90397380324185]
本稿では,全シーケンスに対する過去のトークンの並列クエリを可能にするZETAを提案する。
ZETA は合成textscMulti-Query Associative Recall タスクにおける標準注意性能と一致する。
論文 参考訳(メタデータ) (2025-01-24T15:33:05Z) - Simplifying and Understanding State Space Models with Diagonal Linear
RNNs [56.33053691749856]
本研究は、離散化ステップを解消し、バニラ対角線形RNNに基づくモデルを提案する。
概念的にはるかに単純であるにもかかわらず、$mathrmDLR$は以前提案したSSMと同じくらいのパフォーマンスを示す。
また、合成シーケンス・ツー・シーケンス・タスクのスイートによって、SSMとアテンションベースモデルの表現性も特徴付ける。
論文 参考訳(メタデータ) (2022-12-01T18:53:06Z) - Quantum Resources Required to Block-Encode a Matrix of Classical Data [56.508135743727934]
回路レベルの実装とリソース推定を行い、古典データの高密度な$Ntimes N$行列をブロックエンコードして$epsilon$を精度良くすることができる。
異なるアプローチ間のリソーストレードオフを調査し、量子ランダムアクセスメモリ(QRAM)の2つの異なるモデルの実装を検討する。
我々の結果は、単純なクエリの複雑さを超えて、大量の古典的データが量子アルゴリズムにアクセスできると仮定された場合のリソースコストの明確な図を提供する。
論文 参考訳(メタデータ) (2022-06-07T18:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。