論文の概要: PolyKV: A Shared Asymmetrically-Compressed KV Cache Pool for Multi-Agent LLM Inference
- arxiv url: http://arxiv.org/abs/2604.24971v1
- Date: Mon, 27 Apr 2026 20:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.585541
- Title: PolyKV: A Shared Asymmetrically-Compressed KV Cache Pool for Multi-Agent LLM Inference
- Title(参考訳): PolyKV:マルチエージェントLPM推論のための共有非対称圧縮KVキャッシュプール
- Authors: Ishan Patel, Ishan Joshi,
- Abstract要約: PolyKVは、複数の同時推論エージェントが単一の非対称圧縮KVキャッシュプールを共有するシステムである。
Llama-3-8Bでは、15のエージェントが4Kトーケンのコンテキストを共有するため、PolyKVはKVキャッシュのメモリを19.8GBから0.45GBに削減し、97.7%の削減を実現した。
- 参考スコア(独自算出の注目度): 0.21485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present PolyKV, a system in which multiple concurrent inference agents share a single, asymmetrically compressed KV cache pool. Rather than allocating a separate KV cache per agent -- the standard paradigm -- PolyKV writes a compressed cache once and injects it into N independent agent contexts via HuggingFace DynamicCache objects. Compression is asymmetric: Keys are quantized at int8 (q8_0) to preserve softmax stability, while Values are compressed using TurboQuant MSE -- a Fast Walsh-Hadamard Transform (FWHT) rotation followed by 3-bit Lloyd-Max quantization with centroids tuned to N(0,1). We evaluate across two model scales (SmolLM2-1.7B-Instruct and Llama-3-8B-Instruct), three context lengths (600-7,194 tokens), and up to 15 concurrent agents. PolyKV achieves a stable 2.91x compression ratio across all configurations. On Llama-3-8B with 15 agents sharing a 4K-token context, PolyKV reduces KV cache memory from 19.8 GB to 0.45 GB -- a 97.7% reduction -- while maintaining only +0.57% perplexity degradation and a mean BERTScore F1 of 0.928. PPL delta does not grow with agent count and improves as context length increases, inverting to -0.26% at 1,851 coherent tokens. To our knowledge, no prior work combines a single shared, lossy-compressed KV pool with multi-reader concurrent agent access.
- Abstract(参考訳): 複数の同時推論エージェントが1つの非対称圧縮KVキャッシュプールを共有するシステムであるPolyKVを提案する。
PolyKVは、エージェントごとに別々のKVキャッシュを割り当てるのではなく -- 標準パラダイム -- 圧縮されたキャッシュを一度書き、HuggingFace DynamicCacheオブジェクトを介してN個の独立したエージェントコンテキストに注入する。
鍵はソフトマックス安定性を維持するために int8 (q8_0) で量子化され、一方値はTurboQuant MSE (FWHT) で圧縮される。
2つのモデルスケール(SmolLM2-1.7B-InstructとLlama-3-8B-Instruct)、3つのコンテキスト長(600-7,194トークン)、最大15個のコンカレントエージェントを評価した。
PolyKVは全ての構成で2.91倍の圧縮比を実現している。
Llama-3-8Bでは、15のエージェントが4Kのコンテキストを共有するため、PolyKVはKVキャッシュメモリを19.8GBから0.45GBに減らし、97.7%の削減を実現した。
PPLデルタは、エージェント数とともに成長せず、コンテキスト長が増加するにつれて改善され、1,851個のコヒーレントトークンで-0.26%に反転する。
我々の知る限り、事前の作業は、共有され、圧縮されていない単一のKVプールと、マルチリーダーの並行エージェントアクセスを組み合わせたものではありません。
関連論文リスト
- Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit [0.0]
最近のKVキャッシュ量子化の研究はTurboQuantで終わり、トランスフォーマーキー値キャッシュのベクターあたりの圧縮に対するシャノンエントロピー限界に近づいた。
この制限は、KVキャッシュをシーケンスとして圧縮するという、実際に問題となる問題よりも厳密に弱い問題に適用される。
KVキャッシュに格納されているトークンは、任意の浮動小数点データではなく、モデルがトレーニングした正確な形式言語からのサンプルであり、モデルは、その言語のほぼ最適予測子を構築することで構成される。
論文 参考訳(メタデータ) (2026-04-10T22:48:19Z) - KVSculpt: KV Cache Compression as Distillation [7.085426079187912]
KVキャッシュ圧縮は、効率的なLLM推論に重要である。
既存のメソッドは、純粋な消去 -- どのKVペアを保持するかを選択する -- から、類似のペアをより少ないものに組み合わせたマージまで、さまざまです。
我々は、このスペクトルの反対側に移動するKVSculptを提案する。
鍵はL-BFGSで最適化され、最小二乗で閉形式で解かれる。
論文 参考訳(メタデータ) (2026-03-29T19:14:25Z) - Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - Cache Me If You Must: Adaptive Key-Value Quantization for Large Language Models [28.16603647353951]
AQUA-KVは、コンパクトアダプタに依存するキーバリューキャッシュの適応量子化である。
パープレキシティとLongBenchスコアの相対誤差を1%以下の値で2-2.5ビットで近似する。
論文 参考訳(メタデータ) (2025-01-31T18:47:42Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - KV-Compress: Paged KV-Cache Compression with Variable Compression Rates per Attention Head [0.8158530638728501]
そこで我々は,PagedAttentionフレームワーク内で連続KVブロックを除去する新しい圧縮手法であるKV-Compressを紹介する。
本手法は,Mistral-7B-Instruct-v0.2およびLlama-3.1-8B-InstructのLongBenchにおける圧縮KVの総数を4倍に減らしながら,最先端の性能を実現する。
Llama-3.1-8B-InstructとLlama-3.1-70B-Instruct-FP8の評価は、圧縮速度を最大8倍まで達成し、性能に悪影響を及ぼすことなく、フルキャッシュ性能の90%以上を維持しながら、最大64倍まで向上する。
論文 参考訳(メタデータ) (2024-09-30T19:09:13Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。