論文の概要: KV Pareto: Systems-Level Optimization of KV Cache and Model Compression for Long Context Inference
- arxiv url: http://arxiv.org/abs/2512.01953v1
- Date: Mon, 01 Dec 2025 18:03:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.009138
- Title: KV Pareto: Systems-Level Optimization of KV Cache and Model Compression for Long Context Inference
- Title(参考訳): KV Pareto:長いコンテキスト推論のためのKVキャッシュとモデル圧縮のシステムレベル最適化
- Authors: Sai Gokhale, Devleena Das, Rajeev Patwari, Ashish Sirasao, Elliott Delaye,
- Abstract要約: 長文Long-context Large Language Models (LLMs) は、キー値(KV)キャッシュとシーケンス長の線形成長により、推論中に重要なメモリボトルネックに直面している。
KVキャッシュの量子化、チャンクプリフィル、モデルウェイト量子化といった個別の最適化手法は、将来性を示しているが、それらの共同効果とエッジ展開のための最適構成は、まだ未定である。
- 参考スコア(独自算出の注目度): 2.8485297992257017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context Large Language Models (LLMs) face significant memory bottlenecks during inference due to the linear growth of key-value (KV) cache with sequence length. While individual optimization techniques like KV cache quantization, chunked prefill, and model weight quantization have shown promise, their joint effects and optimal configurations for edge deployment remain underexplored. We introduce KV Pareto, a systems-level framework that systematically maps the trade-off frontier between total memory consumption and task accuracy across these three complementary optimization techniques. Our framework evaluates multiple LLM architectures (Qwen, Llama, Mistral) with varying KV quantization schemes (int2/4/8, mixed-precision), granularities (per-token, per-tensor, per-block), and 4-bit weight quantization via AWQ. Our framework identifies model-specific Pareto-optimal configurations that achieve 68-78% total memory reduction with minimal (1-3%) accuracy degradation on long-context tasks. We additionally verify the selected frontiers on additional benchmarks of Needle-in-a-Haystack, GSM8k and MMLU as well as extended context lengths of up to 128k to demonstrate the practical need of joint optimization for efficient LLM inference.
- Abstract(参考訳): 長文Long-context Large Language Models (LLMs) は、キー値(KV)キャッシュとシーケンス長の線形成長により、推論中に重要なメモリボトルネックに直面している。
KVキャッシュの量子化、チャンクプリフィル、モデルウェイト量子化といった個別の最適化手法は、将来性を示しているが、それらの共同効果とエッジ展開のための最適構成は、まだ未定である。
KV Paretoは,これら3つの相補的最適化手法の合計メモリ消費とタスク精度のトレードオフフロンティアを体系的にマッピングするシステムレベルのフレームワークである。
我々のフレームワークは,KV量子化スキーム(int2/4/8,混合精度),粒度(token,per-tensor,per-block),およびAWQによる4ビット重み量子化による複数のLLMアーキテクチャ(Qwen,Llama,Mistral)を評価する。
本フレームワークは,長期タスクにおいて最小(1~3%)の精度で68~78%のメモリ削減を実現するモデル固有のパレート最適構成を同定する。
さらに,Handle-in-a-Haystack,GSM8k,MMLUのベンチマークに加えて,最大128kまでのコンテキスト長を拡張して,効率的なLLM推論のための共同最適化の実践的必要性を実証するために,選択したフロンティアを検証した。
関連論文リスト
- KVmix: Gradient-Based Layer Importance-Aware Mixed-Precision Quantization for KV Cache [13.662270631753135]
量子化は、KVキャッシュによって引き起こされるメモリ圧力を効果的に軽減することができる。
KVmix と呼ばれる KV キャッシュのための新しい混合精度量子化法を提案する。
論文 参考訳(メタデータ) (2025-05-18T07:04:53Z) - KVTuner: Sensitivity-Aware Layer-Wise Mixed-Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference [40.97781175723418]
KVキャッシュの量子化は、長いコンテキストにおける大規模言語モデル推論のスループットとレイテンシを改善することができる。
現在の方法では、KVキャッシュの量子化に対する階層的感度を見極めること、オンラインのきめ細かい決定のオーバーヘッドが高いこと、異なるLLMや制約に対する柔軟性の低いこと、の3つの未解決問題がある。
粗粒度のKVキャッシュに対して最適なハードウェアフレンドリなKV量子化ペアを適応的に探索する,シンプルで効果的なフレームワークKVTunerを提案する。
論文 参考訳(メタデータ) (2025-02-06T15:26:26Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。