論文の概要: SparKV: Overhead-Aware KV Cache Loading for Efficient On-Device LLM Inference
- arxiv url: http://arxiv.org/abs/2604.21231v1
- Date: Thu, 23 Apr 2026 02:55:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.26722
- Title: SparKV: Overhead-Aware KV Cache Loading for Efficient On-Device LLM Inference
- Title(参考訳): SparKV: 効率的なオンデバイスLCM推論のための頭上対応KVキャッシュローディング
- Authors: Hongyao Liu, Liuqun Zhai, Junyi Wang, Zhengru Fang,
- Abstract要約: SparKVは、クラウドベースのKVストリーミングとオンデバイス計算を組み合わせた、適応的なKVローディングフレームワークである。
また,SparKVは,リクエスト毎のエネルギー消費を1.5倍から3.3倍に抑えつつ,応答品質に無視できる影響を与えながら,第1次から第1次までの時間を1.3$x-5.1x削減することを示した。
- 参考スコア(独自算出の注目度): 8.037785679532316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient inference for on-device Large Language Models (LLMs) remains challenging due to limited hardware resources and the high cost of the prefill stage, which processes the full input context to construct Key-Value (KV) caches. We present SparKV, an adaptive KV loading framework that combines cloud-based KV streaming with on-device computation. SparKV models the cost of individual KV chunks and decides whether each chunk should be streamed or computed locally, while overlapping the two execution paths to reduce latency. To handle fluctuations in wireless connectivity and edge resource availability, SparKV further refines offline-generated schedules at runtime to rebalance communication and computation costs. Experiments across diverse datasets, LLMs, and edge devices show that SparKV reduces Time-to-First-Token by 1.3$x-5.1x with negligible impact on response quality, while lowering per-request energy consumption by 1.5x to 3.3x, demonstrating its robustness and practicality for real-world on-device deployment.
- Abstract(参考訳): オンデバイス大規模言語モデル(LLM)の効率的な推論は、ハードウェアリソースが限られており、入力コンテキスト全体を処理してキーバリュー(KV)キャッシュを構築するプリフィルステージのコストが高いため、依然として困難である。
クラウドベースのKVストリーミングとオンデバイス計算を組み合わせた,適応KVローディングフレームワークであるSparKVを提案する。
SparKVは個々のKVチャンクのコストをモデル化し、各チャンクをローカルにストリーミングするか、あるいは計算するかを判断する。
無線接続とエッジリソースの可用性の変動に対処するため、SparKVはさらにオフライン生成スケジュールをランタイムで改善し、通信と計算コストを再バランスさせる。
多様なデータセット、LDM、エッジデバイスにわたる実験により、SparKVは、要求毎のエネルギー消費を1.5倍から3.3倍に下げながら、応答品質に無視できない影響で、タイム・ツー・ファースト・トークンを1.3$x-5.1x削減し、実際のオン・デバイス・デプロイメントの堅牢性と実用性を実証した。
関連論文リスト
- DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - ParisKV: Fast and Drift-Robust KV-Cache Retrieval for Long-Context LLMs [13.800139639868883]
本稿では,衝突型候補選択に基づくドリフトロバスト,GPUネイティブなKV-cache検索フレームワークを提案する。
ParisKVはUnified Virtual Addressing (UVA)を介してCPUオフロードされたKVキャッシュをサポートする
ParisKVは、長期のインプットと長期のベンチマークにおいて、完全な注目の質にマッチする。
論文 参考訳(メタデータ) (2026-02-07T22:26:45Z) - XQuant: Breaking the Memory Wall for LLM Inference with KV Cache Rematerialization [58.92253769255316]
LLM推論はメモリフットプリントと帯域幅の要求のために困難である。
XQuantは、ハードウェアプラットフォームの急速に増加する計算能力を利用して、メモリボトルネックを取り除く。
XQuant-CLは、極端な圧縮のためにX埋め込みの層間類似性を利用する。
論文 参考訳(メタデータ) (2025-08-14T06:52:38Z) - R-KV: Redundancy-aware KV Cache Compression for Reasoning Models [77.84539432982307]
共振モデル(R-KV)のための冗長性を考慮したKVキャッシュ圧縮を提案する。
R-KVはKVキャッシュの10%しか使用せず、完全なKVキャッシュ性能のほぼ100%を保っている。
驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
論文 参考訳(メタデータ) (2025-05-30T02:03:24Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - FastKV: KV Cache Compression for Fast Long-Context Processing with Token-Selective Propagation [14.33163594016033]
大規模言語モデル(LLM)は、かなりのプリフィル計算とキー値(KV)キャッシュを必要とする。
KVキャッシュをプレフィルアクセラレーションで圧縮する最近の作業は、このコストを低減しているが、誤ってプリフィル計算の削減をデコードKV予算に結び付ける。
FastKVはKVキャッシュ圧縮フレームワークで、プリフィルとデコードの両方の遅延を減らし、後のレイヤでのトークンの重要性の安定化を活用する。
論文 参考訳(メタデータ) (2025-02-03T05:25:09Z) - DiffKV: Differentiated Memory Management for Large Language Models with Parallel KV Compaction [33.936381781692994]
DiffKVは効率的なKVキャッシュ圧縮のための新しいフレームワークである。
KVキャッシュにおける3つのレベルの分化を利用する。
KVキャッシュを2.7Times$から5.7times$に圧縮できる。
論文 参考訳(メタデータ) (2024-12-04T08:51:23Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。