論文の概要: Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection
- arxiv url: http://arxiv.org/abs/2602.03216v1
- Date: Tue, 03 Feb 2026 07:31:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.313973
- Title: Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection
- Title(参考訳): Token Sparse Attention:Interleaved Token SelectionによるLong-Contextの効率的な推論
- Authors: Dongwon Jo, Beomseok Kang, Jiwon Song, Jae-Joon Kim,
- Abstract要約: トークンスパース注意(Token Sparse Attention)は、トークン単位のスペーシフィケーション機構で、注意中のトークンセットの削減に、ヘッドあたりの$Q$, $K$, $V$を圧縮する。
Token Sparse Attention は精度とレイテンシのトレードオフを常に改善し、128Kコンテキストで最大$$3.23のアテンションスピードアップを実現し、精度を1%以下に抑える。
- 参考スコア(独自算出の注目度): 13.937483869660648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quadratic complexity of attention remains the central bottleneck in long-context inference for large language models. Prior acceleration methods either sparsify the attention map with structured patterns or permanently evict tokens at specific layers, which can retain irrelevant tokens or rely on irreversible early decisions despite the layer-/head-wise dynamics of token importance. In this paper, we propose Token Sparse Attention, a lightweight and dynamic token-level sparsification mechanism that compresses per-head $Q$, $K$, $V$ to a reduced token set during attention and then decompresses the output back to the original sequence, enabling token information to be reconsidered in subsequent layers. Furthermore, Token Sparse Attention exposes a new design point at the intersection of token selection and sparse attention. Our approach is fully compatible with dense attention implementations, including Flash Attention, and can be seamlessly composed with existing sparse attention kernels. Experimental results show that Token Sparse Attention consistently improves accuracy-latency trade-off, achieving up to $\times$3.23 attention speedup at 128K context with less than 1% accuracy degradation. These results demonstrate that dynamic and interleaved token-level sparsification is a complementary and effective strategy for scalable long-context inference.
- Abstract(参考訳): 注意の二次的な複雑さは、大きな言語モデルに対する長文推論における中心的なボトルネックのままである。
事前のアクセラレーション手法は、アテンションマップを構造化されたパターンで分散するか、特定のレイヤでトークンを永久に排除するか、無関係なトークンを保持するか、トークンの重要性の層/頭/頭/のダイナミックさにもかかわらず、不可逆な早期決定に依存することができる。
本稿では,トークン単位の軽量かつダイナミックなスペース化機構であるToken Sparse Attentionを提案する。この機構は,注目中のトークンセットの縮小に$Q$,$K$,$V$を圧縮し,元のシーケンスに出力を圧縮することで,トークン情報を後続のレイヤで再検討することができる。
さらにトークン選択とスパースアテンションの交差において,トークンスパースアテンションが新たなデザインポイントを公開する。
われわれのアプローチは、Flash Attentionを含む高密度アテンション実装と完全に互換性があり、既存のスパースアテンションカーネルでシームレスに構成できる。
実験結果から,Token Sparse Attentionは精度と遅延のトレードオフを常に改善し,128Kコンテキストで最大$$3.23のアテンションスピードアップを実現し,精度を1%以下に抑えることができた。
これらの結果は、動的かつインターリーブなトークンレベルのスペーシフィケーションが、スケーラブルな長文推論の補完的かつ効果的な戦略であることを示している。
関連論文リスト
- SPOT: Sparsification with Attention Dynamics via Token Relevance in Vision Transformers [9.24617274894642]
視覚変換器(ViT)内の冗長トークンを早期に検出するためのフレームワークとして,Token Relevance (SPOT) を用いた attentiOn dynamics を用いたSParsification を提案する。
SPOTはトークンスペーシフィケーションを通知し、そのようなトークンを除去し、性能を犠牲にすることなく計算効率を向上させる。
実験による評価では、通常のViTに比べて40%の効率向上が見られた。
論文 参考訳(メタデータ) (2025-11-13T16:56:24Z) - Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs [10.52833484759311]
本稿では,空間適応型かつキャリブレーションフリーなスパースアテンション機構であるTacticを提案する。
固定されたトークン予算ではなく、累積的な注意スコアに基づいてトークンを動的に選択する。
我々は、Tacticが既存のスパースアテンションアルゴリズムより優れており、精度が良く、7.29倍のデコードアテンションスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2025-02-17T08:39:43Z) - AttentionPredictor: Temporal Patterns Matter for KV Cache Compression [64.75459635661562]
我々は,KVキャッシュ圧縮とクリティカルトークン識別のための注意パターンを直接予測する,学習に基づく最初の手法であるAttentionPredictorを提案する。
AttentionPredictorは、注意スコアを正確に予測し、無視可能なメモリを消費する統一予測モデルを共有する。
注意情報の大半を保持することで、AttentionPredictorは、キャッシュオフロードシナリオで13$times$KVキャッシュ圧縮と5.6$times$スピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。