論文の概要: KVBuffer: IO-aware Serving for Linear Attention
- arxiv url: http://arxiv.org/abs/2605.19049v1
- Date: Mon, 18 May 2026 19:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.957672
- Title: KVBuffer: IO-aware Serving for Linear Attention
- Title(参考訳): KVBuffer: 線形注意のためのIO対応サービス
- Authors: Longwei Zou, Lin Zhong,
- Abstract要約: 線形注意のためのIO対応機能機構であるKVバッファを提案する。
KV Bufferは、サービスシステムがより柔軟でメモリ効率の良い方法で線形アテンション出力を計算することを可能にする。
評価の結果、KVバッファは、線形注意復号遅延を最大45.17%削減し、サービス要求の最大回数を5倍にすることができることがわかった。
- 参考スコア(独自算出の注目度): 3.3481337735067673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear attention has recently gained significant attention for long-context inference due to its constant decoding cost with respect to context length. However, existing serving systems typically serve linear attention by recurrently computing and updating a large linear attention state in every decoding step. Since the state is much larger than the per-token key and value, recurrent decoding incurs substantial memory access and becomes inefficient for serving linear attention. In this paper, we propose KVBuffer, an IO-aware serving mechanism for linear attention. By buffering recent keys and values, KVBuffer enables serving systems to compute linear attention outputs in more flexible and memory-efficient ways. For decoding, KVBuffer enables chunkwise computation, which reduces average memory access and decoding latency by deferring state updates and applying them in batch. For speculative decoding, KVBuffer verifies draft tokens in parallel and avoids storing temporary states. For short contexts, KVBuffer computes attention outputs directly from buffered keys and values, without creating or updating the linear attention state. We implement KVBuffer in SGLang for Qwen3-Next. Our evaluations show that KVBuffer can reduce linear attention decoding latency by up to 45.17% and increase the maximum number of serving requests by 5x for speculative decoding when verifying four draft tokens.
- Abstract(参考訳): 近年,文脈長に対する復号コストが一定であることから,長文推論において線形注意が注目されている。
しかし、既存のサービスシステムは典型的には、繰り返し計算し、復号ステップ毎に大きな線形アテンション状態を更新して線形アテンションを提供する。
状態はトークン単位のキーと値よりもはるかに大きいため、再帰復号化はメモリアクセスを著しく増加させ、線形の注意に役立てるには非効率になる。
本稿では,リニアアテンションのためのIO対応サービス機構であるKVBufferを提案する。
最近のキーと値をバッファリングすることで、KVBufferはサービスシステムがより柔軟でメモリ効率の良い方法で線形アテンション出力を計算することができる。
復号化のために、KVBufferはチャンクワイズ計算を可能にし、状態更新を延期してバッチで適用することで、平均メモリアクセスと復号レイテンシを低減する。
投機的復号化のために、KVBufferはドラフトトークンを並列に検証し、一時状態の保存を避ける。
短いコンテキストでは、KVBufferはリニアアテンション状態の生成や更新をすることなく、バッファされたキーと値から直接アテンション出力を計算する。
我々は,Qwen3-NextのSGLangにKVBufferを実装した。
評価の結果、KVBufferは4つのドラフトトークンを検証した場合に、最大45.17%の線形注意復号遅延を減らし、投機的復号化のために最大5倍のサービス要求数を増大させることができることがわかった。
関連論文リスト
- SinkRouter: Sink-Aware Routing for Efficient Long-Context Decoding in Large Language and Multimodal Models [30.198844053934675]
本研究では,アテンションシンク現象が,トレーニング中に構築された安定かつ到達可能で,誤差制御可能な固定点に対応することを示す。
Sinkは、シンク信号とスキップを検知し、そうでなければニアゼロ出力を生成する訓練不要な選択的ルーティングフレームワークである。
論文 参考訳(メタデータ) (2026-04-18T07:23:22Z) - NOSA: Native and Offloadable Sparse Attention [27.551376861663556]
我々は、KVキャッシュオフロードをサポートするために設計された訓練可能なスパースアテンションフレームワークであるNOSAを提案する。
我々はNOSAが復号スループットを最大2.3倍に向上させながら、ほぼロスレス性能を保っていることを示す。
論文 参考訳(メタデータ) (2025-10-15T14:33:16Z) - RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference [27.69137902678418]
RetroInferは、長文推論を加速するために固有の注意空間を利用する新しいシステムである。
KVキャッシュがCPUメモリに拡張された場合、GPUメモリリミット内では4.5倍のスピードアップと、スムーズなアテンションベースライン上で最大10.5倍のスピードアップを示します。
論文 参考訳(メタデータ) (2025-05-05T18:01:17Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。
提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文 参考訳(メタデータ) (2024-03-13T16:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。