論文の概要: SpecAttn: Co-Designing Sparse Attention with Self-Speculative Decoding
- arxiv url: http://arxiv.org/abs/2602.07223v1
- Date: Fri, 06 Feb 2026 22:12:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.517062
- Title: SpecAttn: Co-Designing Sparse Attention with Self-Speculative Decoding
- Title(参考訳): SpecAttn: 自己投機的デコーディングによるスパースアテンションの共同設計
- Authors: Yikang Yue, Yuqi Xue, Jian Huang,
- Abstract要約: SpecAttnは、検証誘導スパースアテンションを持つ自己投機的復号法である。
バニラ自動回帰復号法よりも2.81$times$高いスループットと、最先端のパリティベースの復号法よりも1.29$times$高いスループットを実現している。
- 参考スコア(独自算出の注目度): 3.47505166101801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context large language model (LLM) inference has become the norm for today's AI applications. However, it is severely bottlenecked by the increasing memory demands of its KV cache. Previous works have shown that self-speculative decoding with sparse attention, where tokens are drafted using a subset of the KV cache and verified in parallel with full KV cache, speeds up inference in a lossless way. However, this approach relies on standalone KV selection algorithms to select the KV entries used for drafting and overlooks that the criticality of each KV entry is inherently computed during verification. In this paper, we propose SpecAttn, a self-speculative decoding method with verification-guided sparse attention. SpecAttn identifies critical KV entries as a byproduct of verification and only loads these entries when drafting subsequent tokens. This not only improves draft token acceptance rate but also incurs low KV selection overhead, thereby improving decoding throughput. SpecAttn achieves 2.81$\times$ higher throughput over vanilla auto-regressive decoding and 1.29$\times$ improvement over state-of-the-art sparsity-based self-speculative decoding methods.
- Abstract(参考訳): Long-context Large Language Model (LLM)推論は、今日のAIアプリケーションの標準となっている。
しかし、KVキャッシュのメモリ要求の増加により、非常にボトルネックになっている。
トークンはKVキャッシュのサブセットを使用して起草され、完全なKVキャッシュと並列に検証され、損失のない方法で推論を高速化する。
しかし、このアプローチは、ドラフトに使用されるKVエントリを選択するためにスタンドアロンのKV選択アルゴリズムに依存しており、検証中に各KVエントリの臨界度が本質的に計算されていることを見落としている。
本稿では,検証誘導スパースアテンションを用いた自己投機的復号法であるSpecAttnを提案する。
SpecAttnは、重要なKVエントリを検証の副産物として認識し、後続のトークンを起草する際にのみこれらのエントリをロードする。
これにより、ドラフトトークンの受け入れ率が向上するだけでなく、KV選択のオーバーヘッドも低くなり、復号スループットが向上する。
SpecAttnは、バニラ自動回帰復号法よりも2.81$\times$高いスループットと1.29$\times$最先端のスパシティベースの自己投機的復号法よりも改善されている。
関連論文リスト
- Learning What to Write: Write-Gated KV for Efficient Long-Context Inference [10.915483460983411]
我々は,KVキャッシュ管理を3つのプリミティブの因果系として定式化した。
我々は、キャッシュに入る前にトークンユーティリティを予測する軽量メカニズムであるWrite-Gated KVを介してKVAdmissionをインスタンス化する。
論文 参考訳(メタデータ) (2025-12-19T11:08:58Z) - KVReviver: Reversible KV Cache Compression with Sketch-Based Token Reconstruction [20.53279247581787]
スケッチアルゴリズムに基づく可逆的なKVキャッシュ圧縮手法であるKVReviverを提案する。
2kのコンテキストでは、同じエンドツーエンドの推論精度を維持しながら、KVキャッシュの予算の10%しか必要としない。
32kのコンテキストでは、同等または同等の精度の2%の精度の損失を達成する。
論文 参考訳(メタデータ) (2025-12-01T03:59:20Z) - Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。