論文の概要: Tangram: Unlocking Non-Uniform KV Cache for Efficient Multi-turn LLM Serving
- arxiv url: http://arxiv.org/abs/2606.06302v1
- Date: Thu, 04 Jun 2026 15:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.912193
- Title: Tangram: Unlocking Non-Uniform KV Cache for Efficient Multi-turn LLM Serving
- Title(参考訳): Tangram: 効率的なマルチターンLDMサービングのための非均一KVキャッシュのアンロック
- Authors: Hyungmin Kim, Minsoo Kim, Hongseok Kim, Jungwook Choi,
- Abstract要約: Tangramは、一様でないKVキャッシュを実用的にするために設計された新しいサービスシステムである。
Tangramは既存のベースラインに比べてスループットを最大2.6倍改善する。
- 参考スコア(独自算出の注目度): 12.478756445519409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-turn Large Language Model (LLM) serving is critical for consistent user experiences, yet the linear growth of the Key-Value (KV) cache imposes significant pressure on GPU memory and bandwidth. Non-uniform KV compression effectively preserves more information by considering the individual importance of each KV cache. However, such KV cache heterogeneity introduces various systemic challenges - including memory fragmentation, scheduling complexities, and diminished kernel utilization - which collectively lead to significant inefficiencies in existing LLM serving systems. To overcome these challenges, we present Tangram, a novel serving system designed to make Non-uniform KV caches practical. Tangram addresses systemic inefficiencies through three core techniques: (1) Deterministic Budget Allocation assigns a static memory footprint to each head based on its intrinsic pattern, entirely eliminating dynamic scheduling overhead and prefill stalls; (2) Head Group Page clusters attention heads with similar retention demands and manages them with independent, vectorized page tables, thereby maximizing physical memory reclamation; and (3) Ahead-of-Time (AOT) Load Balancing leverages static budget profiles to ensure uniform GPU utilization without runtime overhead. Experimental results show that Tangram improves throughput by up to 2.6x compared to existing baselines, while fully preserving model accuracy. Our implementation is publicly available at https://github.com/aiha-lab/TANGRAM.
- Abstract(参考訳): マルチターン大言語モデル(LLM)は、一貫したユーザエクスペリエンスには不可欠だが、キーバリュー(KV)キャッシュの線形成長は、GPUメモリと帯域幅に大きな圧力を与える。
非均一なKV圧縮は、各KVキャッシュの個々の重要性を考慮して、より多くの情報を効果的に保存する。
しかしながら、そのようなKVキャッシュの不均一性は、メモリの断片化、スケジューリングの複雑さ、カーネル利用の減少など、様々なシステム的課題をもたらし、既存のLLMサービスシステムにおいて大きな非効率をもたらす。
これらの課題を克服するために,不均一なKVキャッシュの実現を目的とした新しいサービスシステムTangramを提案する。
決定論的予算配分(Deterministic Budget Allocation)は、その固有のパターンに基づいて、各ヘッドに静的メモリフットプリントを割り当て、動的スケジューリングオーバーヘッドを完全に排除し、ストールをプリフィルする。 2)ヘッドグループページクラスタのアテンションヘッドは、同様の保持要求を持ち、独立してベクトル化されたページテーブルで管理することにより、物理的メモリの最大化、3)AOT(Ahead-of-Time)ロードバランシング(Load Balancing)は、静的な予算プロファイルを活用して、ランタイムオーバーヘッドなしでGPUの統一的な利用を保証する。
実験の結果、Tangramは既存のベースラインに比べてスループットを最大2.6倍改善し、モデル精度を完全に保存していることがわかった。
私たちの実装はhttps://github.com/aiha-lab/TANGRAMで公開されています。
関連論文リスト
- Multi-Segment Attention: Enabling Efficient KV-Cache Management for Faster Large Language Model Serving [18.829614918483255]
AsymCacheは、LLM(Large Language Model)推論のための計算対応のKVキャッシュ管理システムである。
AsymCacheはTTFTを最大1.90-2.03x、TPOT(time-per-latency-token)を1.62-1.71xまで下げることを示した。
論文 参考訳(メタデータ) (2026-06-01T23:51:37Z) - KVDrive: A Holistic Multi-Tier KV Cache Management System for Long-Context LLM Inference [23.683284557561112]
我々は、GPUメモリ、ホストDRAM、SSDにまたがる総合的なマルチ層KVキャッシュ管理システムであるKVDriveを紹介する。
KVDriveは、キャッシュ配置、パイプラインスケジューリング、階層間の調整を共同でオーケストレーションするシステムの観点から、この問題に取り組む。
このシステムは精度を保ちながら最先端の作業に比べて最大1.74倍のスループットを実現している。
論文 参考訳(メタデータ) (2026-05-18T08:54:16Z) - Comparative Characterization of KV Cache Management Strategies for LLM Inference [0.31498833540989407]
大言語モデル(LLM)を用いた効率的な推論にはキーバリューキャッシュが不可欠である
これらのキャッシュは、自己回帰トークン生成時の冗長な計算を最小限にするために必須である。
KVキャッシュの成長は、システムレベルの大きな課題を引き起こしている。
論文 参考訳(メタデータ) (2026-04-06T16:00:39Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - DiffKV: Differentiated Memory Management for Large Language Models with Parallel KV Compaction [33.936381781692994]
DiffKVは効率的なKVキャッシュ圧縮のための新しいフレームワークである。
KVキャッシュにおける3つのレベルの分化を利用する。
KVキャッシュを2.7Times$から5.7times$に圧縮できる。
論文 参考訳(メタデータ) (2024-12-04T08:51:23Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。