論文の概要: $π$-Attention: Periodic Sparse Transformers for Efficient Long-Context Modeling
- arxiv url: http://arxiv.org/abs/2511.10696v1
- Date: Wed, 12 Nov 2025 09:09:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.278221
- Title: $π$-Attention: Periodic Sparse Transformers for Efficient Long-Context Modeling
- Title(参考訳): $π$-Attention: 効率的なロングコンテキストモデリングのための周期スパース変換器
- Authors: Dong Liu, Yanxuan Yu,
- Abstract要約: PiAttentionは周期的なスパース変換器で、注意をリングローカルな地区に分解する。
PiAttentionは、RingAttentionよりも8.3%低いパープレキシティで、高密度の注意品質と一致または超える。
- 参考スコア(独自算出の注目度): 5.216774377033164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have revolutionized natural language processing, but their quadratic complexity with respect to sequence length remains a fundamental bottleneck for long-range modeling. While sparse attention mechanisms like RingAttention reduce computational costs by restricting attention to local neighborhoods, they suffer from limited receptive fields and lack of adaptability. We present \PiAttention, a periodic sparse Transformer that factorizes attention into ring-local neighborhoods, deterministic $π$-stride skips, and an adaptive fusion gate. The periodic structure provides predictable coverage of distant tokens, while the sparse footprint keeps the per-layer complexity linear in context length. We prove that \PiAttention achieves $\mathcal{O}(kL + π\log L)$ receptive field growth compared to $\mathcal{O}(kL)$ for RingAttention, where $k$ is the local window size, $π$ is the skip period, and $L$ is the sequence length. Extensive experiments on language modeling, retrieval, and vision-language tasks demonstrate that \PiAttention matches or surpasses dense attention quality with 8.3\% lower perplexity than RingAttention while using 50\% fewer GPUs for the same context length. Our detailed ablations and visualizations reveal the importance of periodic skips, adaptive fusion, and head-level sparsity coordination for efficient long-context modeling.
- Abstract(参考訳): トランスフォーマーは自然言語処理に革命をもたらしたが、シーケンス長に関する2次複雑さは、長距離モデリングの基本的なボトルネックである。
RingAttentionのようなまばらな注意機構は、局所的な地域への注意を制限することによって計算コストを減少させるが、それらは受容野の制限と適応性の欠如に悩まされている。
本稿では,周期的なスパース変換器である \PiAttention をリング局所近傍に分解し,決定論的な$π$-stride スキップ,適応融合ゲートを提案する。
周期構造は、遠くのトークンの予測可能なカバレッジを提供するが、スパースフットプリントは、コンテキスト長において層間複雑性を線形に保つ。
RingAttention の場合、$k$ はローカルウィンドウサイズ、$π$ はスキップ期間、$L$ はシーケンス長さである。
言語モデリング、検索、視覚言語タスクに関する大規模な実験は、同じコンテキスト長で50倍のGPUを使用しながら、RingAttentionよりも8.3倍のパープレクティリティで、‘PiAttention’が高密度の注意品質と一致または超えることを示した。
提案手法は, 周期的スキップ, 適応的融合, ヘッドレベルの疎度調整の重要性を, より効率的な長文モデリングのために明らかにするものである。
関連論文リスト
- Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache [67.47789629197857]
本稿では,トランスヘッド次元の不均一な役割を生かした学習自由フレームワークを提案する。
フーリエアテンションは、長コンテキスト非感性次元をフーリエ基底に投影することにより、その時間的進化を固定長のスペクトル係数で近似する。
本稿では,FourierAttention が LongBench と Needle-In-A-Haystack 上で最高の長文精度を実現することを示す。
論文 参考訳(メタデータ) (2025-06-13T15:35:54Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - Fast Multipole Attention: A Scalable Multilevel Attention Mechanism for Text and Images [0.818198392834469]
我々は,n体物理学にインスパイアされた自己注意のための分割・コンカヤ機構である高速多極注意(FMA)を導入する。
FMAは、完全なコンテキストインタラクションを保持しながら、自己アテンションの時間とメモリの複雑さを$mathcalOleft(n2right)$から$mathcalO(n log n)$に削減する。
言語タスクと視覚タスクのためのFMAの1次元実装と2次元実装をそれぞれ開発した。
論文 参考訳(メタデータ) (2023-10-18T13:40:41Z) - LongNet: Scaling Transformers to 1,000,000,000 Tokens [146.4077038371075]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。
我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2023-07-05T17:59:38Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。