論文の概要: QKVShare: Quantized KV-Cache Handoff for Multi-Agent On-Device LLMs
- arxiv url: http://arxiv.org/abs/2605.03884v1
- Date: Tue, 05 May 2026 15:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:44.012431
- Title: QKVShare: Quantized KV-Cache Handoff for Multi-Agent On-Device LLMs
- Title(参考訳): QKVShare:マルチエージェントオンデバイスLCMのための量子KVキャッシュハンドオフ
- Authors: Pratik Honavar, Tejpratap GVSL,
- Abstract要約: QKVShareは、エージェント間のKVキャッシュハンドオフを定量化するフレームワークである。
現在の結果は、オリジナルのドラフトよりも狭く明確なストーリーをサポートする。
結果、KVハンドオフをデバイス上で有望な方向とする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent LLM systems on edge devices need to hand off latent context efficiently, but the practical choices today are expensive re-prefill or full-precision KV transfer. We study QKVShare, a framework for quantized KV-cache handoff between agents that combines token-level mixed-precision allocation, a self-contained CacheCard representation, and a HuggingFace-compatible cache injection path. Our current results support a narrower but clearer story than the original draft: on 150 GSM8K problems with Llama-3.1-8B-Instruct, adaptive quantization remains competitive under repeated handoff and shows its clearest gains against uniform quantization in deeper-hop, higher budget settings; for handoff latency, the QKVShare path reduces TTFT relative to full re prefill at every tested context, from 130.7 ms vs. 150.2 ms at nominal 1K context to 397.1 ms vs. 1029.7 ms at nominal 8K context;. Stage timing shows that post-injection generation, not card creation, dominates the current QKVShare latency path. These results position quantized KV handoff as a promising on-device systems direction while also highlighting the need for stronger controller ablations and apples-to-apples runtime comparisons.
- Abstract(参考訳): エッジデバイス上のマルチエージェントLLMシステムは、遅延コンテキストを効率的に送出する必要があるが、今日では、高価な再処理や完全精度のKV転送が現実的な選択となっている。
トークンレベルの混合精度割り当て,自己完結型CacheCard表現,HuggingFace互換キャッシュインジェクションパスを組み合わせた,KVキャッシュハンドオフの定量化フレームワークであるQKVShareについて検討する。
Llama-3.1-8B-Instruct, Adaptive Quantization on 150 GSM8K problems with Llama-3.1-8B-Instruct, its clearest gains against uniform Quantization in deep-hop, higher budget settings; for handoff latency, the QKVShare path reduces TTFT relative to full refill at every test context, fromnal 1K context at 397.1 ms vs. 1029.7 ms。
ステージタイミングは、カード生成ではなく、インジェクション後の生成が、現在のQKVShareレイテンシパスを支配していることを示している。
これらの結果は、量子化されたKVハンドオフをデバイス上で有望な方向性として位置づけると同時に、より強力なコントローラアブレーションとアプレットとアプレットのランタイム比較の必要性を強調している。
関連論文リスト
- Don't Waste Bits! Adaptive KV-Cache Quantization for Lightweight On-Device LLMs [8.332279450103151]
大規模言語モデル (LLM) は、推論、生成、意思決定のタスクで顕著な進歩を遂げた。
オンデバイスLSM推論は、キー値(KV)キャッシュのメモリと帯域幅のオーバーヘッドによって大きく制約される。
本稿では,トークンの重要度に比例したビット幅を割り当てる学習ポリシである適応KV-cache量子化を提案する。
論文 参考訳(メタデータ) (2026-04-06T14:45:49Z) - PatternKV: Flattening KV Representation Expands Quantization Headroom [37.83913102876393]
自己回帰 LLM における KV キャッシュは冗長な再計算を排除しているが、推論時に支配的なメモリと帯域幅のボトルネックとして出現している。
KV量子化はキャッシュコストを削減するキーレバーであるが、ネイティブなKV分布が平坦性に欠けるため、精度は急激に低下する。
Kキャッシュは、コンテキストとともに徐々に進化する安定した構造を維持し、Vキャッシュは潜在意味規則性を持つことを示す。
論文 参考訳(メタデータ) (2025-10-05T12:09:14Z) - KVShare: An LLM Service System with Efficient and Effective Multi-Tenant KV Cache Reuse [17.301289617498448]
マルチテナントシナリオ下で要求間でKVキャッシュを共有するKVキャッシュ管理モジュールを提案する。
KVShareはTTFTを最大9.39倍に削減し、完全なKV再計算に比べてスループットを1.2倍に向上させる。
KVShareはSOTA法に比べて精度が20.38%向上している。
論文 参考訳(メタデータ) (2025-03-17T16:43:35Z) - KVTuner: Sensitivity-Aware Layer-Wise Mixed-Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference [40.97781175723418]
KVキャッシュの量子化は、長いコンテキストにおける大規模言語モデル推論のスループットとレイテンシを改善することができる。
現在の方法では、KVキャッシュの量子化に対する階層的感度を見極めること、オンラインのきめ細かい決定のオーバーヘッドが高いこと、異なるLLMや制約に対する柔軟性の低いこと、の3つの未解決問題がある。
粗粒度のKVキャッシュに対して最適なハードウェアフレンドリなKV量子化ペアを適応的に探索する,シンプルで効果的なフレームワークKVTunerを提案する。
論文 参考訳(メタデータ) (2025-02-06T15:26:26Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。