論文の概要: STS: Efficient Sparse Attention with Speculative Token Sparsity
- arxiv url: http://arxiv.org/abs/2605.15508v2
- Date: Mon, 18 May 2026 04:53:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.102625
- Title: STS: Efficient Sparse Attention with Speculative Token Sparsity
- Title(参考訳): STS: 投機的なトークンの分散を伴う効率的なスパースアテンション
- Authors: Ceyu Xu, Jiangnan Yu, Yongji Wu, Yuan Xie,
- Abstract要約: STSはスパースアテンションメカニズムであり、モデルの再トレーニングを必要としない。
代表ベンチマークであるNarrativeQAでは,STSが約90%の間隔で2.67倍の高速化を実現していることを示す。
- 参考スコア(独自算出の注目度): 12.543465979205266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quadratic complexity of attention imposes severe memory and computational bottlenecks on Large Language Model (LLM) inference. This challenge is particularly acute for emerging agentic applications that require processing multi-million token sequences. We propose STS, a sparse attention mechanism that requires no model retraining. STS leverages the key insight that tokens identified as important by a smaller draft model are highly predictive of important tokens for a larger target model. By integrating into speculative decoding frameworks, STS repurposes the draft model's attention scores to dynamically construct a token-and-head-wise sparsity mask. This mask effectively prunes the expensive attention computation in the target LLM. Our evaluation shows that STS achieves a 2.67x speedup operating at approximately 90% sparsity on representative benchmark NarrativeQA, maintaining negligible accuracy degradation compared to dense attention. STS establishes a new state-of-the-art on the sparsity-accuracy trade-off, outperforming prior techniques by enabling higher sparsity levels for a given accuracy budget.
- Abstract(参考訳): 注意の二次的複雑さは、LLM(Large Language Model)推論において、メモリと計算のボトルネックを重くする。
この課題は、数百万のトークンシーケンスを処理する新しいエージェントアプリケーションにとって特に深刻である。
本稿では,モデル再トレーニングを必要としないスパースアテンション機構であるSTSを提案する。
STSでは、より小さなドラフトモデルによって重要視されるトークンは、より大きなターゲットモデルにとって重要なトークンを非常に予測できる、という重要な洞察を活用しています。
STSは投機的デコーディングフレームワークに統合することにより、ドラフトモデルの注意スコアを再利用し、トークンと頭の両方の空間マスクを動的に構築する。
このマスクは、目標LLMにおける高価な注意計算を効果的に引き起こす。
評価の結果,STSは評価ベンチマークNarrativeQAにおいて約90%の間隔で2.67倍のスピードアップ動作を実現し,集中注意よりも無視可能な精度低下を維持した。
STSは、所定の精度予算に対してより高いスパーシリティレベルを実現することにより、従来の技術よりも優れた、スパーシリティ・正確性トレードオフに関する新たな最先端技術を確立している。
関連論文リスト
- Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - SpecAttn: Speculating Sparse Attention [1.6921396880325779]
SpecAttnは、投機的復号化技術とシームレスに統合する、新しいトレーニング不要のアプローチである。
私たちの重要な洞察は、投機的復号中にドラフトモデルによって既に計算されている注意重みを利用して、ターゲットモデルの重要なトークンを特定することです。
SpecAttnは、PG-19データセットのパープレキシティをわずか15.29%増加させ、キー値キャッシュアクセスを75%以上削減する。
論文 参考訳(メタデータ) (2025-10-31T17:12:34Z) - DELTA: Dynamic Layer-Aware Token Attention for Efficient Long-Context Reasoning [6.468843780300177]
モデル精度を犠牲にすることなく計算効率を向上する訓練不要なスパースアテンション機構である textbfDELTA を提案する。
この結果から,中間注意マップの選択的再利用は,より効率的な長文推論への頑健な道を提供することが示された。
論文 参考訳(メタデータ) (2025-10-10T21:37:49Z) - AQUA: Attention via QUery mAgnitudes for Memory and Compute Efficient Inference in LLMs [7.603859408568262]
AQUA (Attention via QUery mAgnitudes) は、新規で多用途な近似戦略である。
注目点積の25%削減は,統計的に有意な影響を伴って達成できることが示唆された。
論文 参考訳(メタデータ) (2025-09-14T08:20:48Z) - Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - AttentionPredictor: Temporal Patterns Matter for KV Cache Compression [64.75459635661562]
我々は,KVキャッシュ圧縮とクリティカルトークン識別のための注意パターンを直接予測する,学習に基づく最初の手法であるAttentionPredictorを提案する。
AttentionPredictorは、注意スコアを正確に予測し、無視可能なメモリを消費する統一予測モデルを共有する。
注意情報の大半を保持することで、AttentionPredictorは、キャッシュオフロードシナリオで13$times$KVキャッシュ圧縮と5.6$times$スピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs [10.702409298302547]
SeerAttentionは、大規模言語モデル自体からブロックレベルの注意空間を学習する。
Mixture of Experts (MoE)のゲーティング機構にインスパイアされたSeerAttentionは、学習可能なゲートで従来の注意を増進する。
評価の結果,SeerAttention は長文プリフィルの精度向上と低レイテンシ化を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-17T07:07:09Z) - AM-SAM: Automated Prompting and Mask Calibration for Segment Anything Model [28.343378406337077]
AM-SAMと呼ばれる自動プロンプトとマスクの校正手法を提案する。
提案手法は入力画像のプロンプトを自動生成し,早期訓練における人的関与の必要性を解消する。
実験の結果,AM-SAMは,人為的および既定のプロンプトの有効性,マッチング,あるいは超越した精度のセグメンテーションを達成できた。
論文 参考訳(メタデータ) (2024-10-13T03:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。