論文の概要: Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention
- arxiv url: http://arxiv.org/abs/2603.08743v1
- Date: Sun, 01 Mar 2026 14:01:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.718773
- Title: Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention
- Title(参考訳): Zipage: 圧縮ページアテンションによるLLM推論のための高要求並行性を維持する
- Authors: Mengqi Liao, Lu Wang, Chaoyun Zhang, Bo Qiao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Huaiyu Wan,
- Abstract要約: 復号フェーズにおけるKVキャッシュは、高コンカレンシーサービスを制限する重要な要因となっている。
本稿では,トークン単位のKVキャッシュ消去とPagedAttentionを組み合わせたCompressed PagedAttentionを提案する。
そこで我々は,高速LLM推論エンジンZipageを開発した。
- 参考スコア(独自算出の注目度): 58.012620801746046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With reasoning becoming the generative paradigm for large language models (LLMs), the memory bottleneck caused by KV cache during the decoding phase has become a critical factor limiting high-concurrency service. Although existing KV cache eviction methods address the memory issue, most of them are impractical for industrial-grade applications. This paper introduces Compressed PagedAttention, a method that combines token-wise KV cache eviction with PagedAttention. We propose a comprehensive scheduling strategy and support prefix caching and asynchronous compression for Compressed PagedAttention. Based on this, we have developed a high-concurrency LLM inference engine, Zipage. On large-scale mathematical reasoning tasks, Zipage achieves around 95\% of the performance of Full KV inference engines while delivering over 2.1$\times$ speedup.
- Abstract(参考訳): 大規模言語モデル(LLM)の生成パラダイムとなる推論により、復号フェーズにおけるKVキャッシュによるメモリボトルネックは、高コンカレンシーサービスを制限する重要な要因となっている。
既存のKVキャッシュ消去法はメモリの問題に対処するが、そのほとんどは工業用アプリケーションでは実用的ではない。
本稿では,トークン単位のKVキャッシュ消去とPagedAttentionを組み合わせたCompressed PagedAttentionを提案する。
我々は,Compressed PagedAttentionに対して,包括的なスケジューリング戦略とプレフィックスキャッシュと非同期圧縮をサポートすることを提案する。
そこで我々は,高速LLM推論エンジンZipageを開発した。
大規模な数学的推論タスクでは、ZipageはフルKV推論エンジンの性能の約95%を達成し、2.1$\times$スピードアップを提供する。
関連論文リスト
- SideQuest: Model-Driven KV Cache Management for Long-Horizon Agentic Reasoning [15.752705487977861]
SideQuestは、Large Reasoning Model(LRM)自体を利用してKVキャッシュ圧縮を実行する新しいアプローチである。
SideQuestは、エージェントタスクのピークトークン使用量を最大65%削減し、精度の低下を最小限にする。
215のサンプルでトレーニングしたモデルを用いて評価した結果,SideQuestはエージェントタスクのピークトークン使用量を最大65%削減し,精度の低下を最小限に抑えることができた。
論文 参考訳(メタデータ) (2026-02-26T04:20:44Z) - Joint Encoding of KV-Cache Blocks for Scalable LLM Serving [3.3230675313521716]
既存のKV-cache圧縮手法は剛性に依存し、テンソルレイアウトを乱したり、特別な計算を必要とする。
KV-cacheブロックの連成符号化を提案し、要求と入力チャンクに類似したブロックを融合して共有表現を生成する。
これにより、KV-cacheメモリのボトルネックが軽減され、特別なハードウェアを使わずに高コンカレンシー機能をサポートする。
論文 参考訳(メタデータ) (2026-01-06T14:50:58Z) - OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。
OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。
オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文 参考訳(メタデータ) (2025-09-25T21:42:27Z) - Accelerating LLM Inference via Dynamic KV Cache Placement in Heterogeneous Memory System [20.652641518700346]
大規模言語モデル(LLM)推論は、メモリ帯域幅によってますます制限される。
現代のAIハードウェアは、高速オフパッケージDRAMと高速帯域メモリ(HBM)を統合している。
本研究は,キャパシティ制約下での集積帯域利用を最大化するために,そのようなシステムにまたがる動的KVキャッシュ配置について検討する。
論文 参考訳(メタデータ) (2025-08-17T19:07:08Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。