論文の概要: PiKV: KV Cache Management System for Mixture of Experts
- arxiv url: http://arxiv.org/abs/2508.06526v1
- Date: Sat, 02 Aug 2025 03:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.408009
- Title: PiKV: KV Cache Management System for Mixture of Experts
- Title(参考訳): PiKV:KVキャッシュ管理システム
- Authors: Dong Liu, Yanxuan Yu, Ben Lengerich, Ying Nian Wu, Xuhong Wang,
- Abstract要約: キーバリュー(KV)キャッシュストレージは、マルチGPUとマルチノード推論において大きなボトルネックとなっている。
我々は,MoEアーキテクチャに適した並列分散KVキャッシュサービスフレームワークである textbfPiKV を紹介する。
PiKVは、まだ生きたプロジェクトであり、MoE Architecturesの総合的なKVキャッシュ管理システムになることを目指している。
- 参考スコア(独自算出の注目度): 35.172826570994815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models continue to scale up in both size and context length, the memory and communication cost of key-value (KV) cache storage has become a major bottleneck in multi-GPU and multi-node inference. While MoE-based architectures sparsify computation across experts, the corresponding KV caches remain dense and globally synchronized, resulting in significant overhead. We introduce \textbf{PiKV}, a parallel and distributed KV cache serving framework tailored for MoE architecture. PiKV leverages \textit{expert-sharded KV storage} to partition caches across GPUs, \textit{PiKV routing} to reduce token-to-KV access, and a \textit{PiKV Scheduling} to adaptively retain query-relevant entries. To further reduce memory usage, PiKV integrates \textit{PiKV Compression} modules the caching pipeline for acceleration. PiKV is recently publicly available as an open-source software library: \href{https://github.com/NoakLiu/PiKV}{https://github.com/NoakLiu/PiKV}. Experiments details is recorded at: \href{https://github.com/NoakLiu/PiKV/blob/main/downstream_tasks/README.md}{https://github.com/NoakLiu/PiKV/Experimental\_Results}. We also have PiKV integrated with Nvidia kvpress for acceleration, details see \href{https://github.com/NoakLiu/PiKVpress}{https://github.com/NoakLiu/PiKVpress}. PiKV is still a living project, aiming to become a comprehesive KV Cache management system for MoE Architectures.
- Abstract(参考訳): 大規模言語モデルがサイズとコンテキスト長の両方でスケールアップを続けるにつれ、キー値(KV)キャッシュストレージのメモリと通信コストは、マルチGPUとマルチノード推論において大きなボトルネックとなっている。
MoEベースのアーキテクチャは専門家間で計算を分散させるが、対応するKVキャッシュは密集し、グローバルに同期し、大きなオーバーヘッドをもたらす。
MoE アーキテクチャに適した並列分散 KV キャッシュサービスフレームワークである \textbf{PiKV} を紹介する。
PiKVは、GPU間でキャッシュを分割するために \textit{expert-sharded KV Storage}、トークンからKVへのアクセスを減らすために \textit{PiKV routing}、クエリ関連エントリを適応的に保持するために \textit{PiKV Scheduling} を利用する。
メモリ使用量をさらに削減するため、PiKVでは、アクセラレーション用のキャッシュパイプラインを‘textit{PiKV Compression}モジュールに統合している。
PiKVは先日,オープンソースソフトウェアライブラリとして公開された。 \href{https://github.com/NoakLiu/PiKV}{https://github.com/NoakLiu/PiKV}。
実験の詳細は以下の通りである。 \href{https://github.com/NoakLiu/PiKV/blob/downstream_tasks/README.md}{https://github.com/NoakLiu/PiKV/experimental\_Results}。
また、アクセラレーションのためにNvidia kvpressとPiKVを統合しています。詳細は、href{https://github.com/NoakLiu/PiKVpress}{https://github.com/NoakLiu/PiKVpress}を参照してください。
PiKVは現在も生きたプロジェクトであり、MoEアーキテクチャー向けの総合的なKVキャッシュ管理システムになることを目指している。
関連論文リスト
- CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。
まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。
提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文 参考訳(メタデータ) (2025-06-23T17:50:11Z) - Rethinking Key-Value Cache Compression Techniques for Large Language Model Serving [23.2180736755494]
キーバリューキャッシュ(textttKV texttcache)圧縮は、LLM(Large Language Model)サービスを最適化するための有望なテクニックとして登場した。
主にtextttKV textttcache のメモリ消費を削減し、計算コストを削減する。
多くの圧縮アルゴリズムが開発されているが、本番環境での応用はまだ一般的ではない。
論文 参考訳(メタデータ) (2025-03-31T12:23:31Z) - xKV: Cross-Layer SVD for KV-Cache Compression [8.250015628919098]
長いコンテキストウィンドウを持つ大規模言語モデル(LLM)は強力なアプリケーションを実現するが、メモリ消費のコストがかかる。
近年の研究では、KV-cacheを複数の層から共有表現にマージする試みが試みられている。
支配的な特異ベクトルは、KV-Cacheの複数の層に驚くほどよく整合していることが分かる。
xKVは複数のレイヤのKVキャッシュを共有低ランクサブスペースに統合し、KVキャッシュのサイズを大幅に削減する。
論文 参考訳(メタデータ) (2025-03-24T17:06:37Z) - FastKV: KV Cache Compression for Fast Long-Context Processing with Token-Selective Propagation [4.856070170902535]
大きな言語モデル(LLM)は、長いコンテキストシーケンスを扱うのに優れている。
コンテキスト情報を格納するために、かなりのキーバリュー(KV)キャッシュが必要である。
FastKVは、長文推論のレイテンシを低減するために設計されたKVキャッシュ圧縮方式である。
論文 参考訳(メタデータ) (2025-02-03T05:25:09Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。