論文の概要: MEPIC: Memory Efficient Position Independent Caching for LLM Serving
- arxiv url: http://arxiv.org/abs/2512.16822v1
- Date: Thu, 18 Dec 2025 18:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.192377
- Title: MEPIC: Memory Efficient Position Independent Caching for LLM Serving
- Title(参考訳): MEPIC: LLM実行のためのメモリ効率の良い位置独立キャッシング
- Authors: Qian Wang, Zahra Yousefijamarani, Morgan Lindsay Heisler, Rongzhi Gu, Bai Xiaolong, Shan Yizhou, Wei Zhang, Wang Lan, Ying Xiong, Yong Zhang, Zhenan Fan,
- Abstract要約: 位置,要求,バッチ間でのチャンクKVの再利用を可能にするメモリ効率のよいシステムを提案する。
MePICはチャンクKVをページストレージにアライメントし、再計算をトークンレベルからブロックレベルにシフトする。
- 参考スコア(独自算出の注目度): 16.99046229452175
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern LLM applications such as deep-research assistants, coding agents, and Retrieval-Augmented Generation (RAG) systems, repeatedly process long prompt histories containing shared document or code chunks, creating significant pressure on the Key Value (KV) cache, which must operate within limited memory while sustaining high throughput and low latency. Prefix caching partially alleviates some of these costs by reusing KV cache for previously processed tokens, but limited by strict prefix matching. Position-independent caching (PIC) enables chunk-level reuse at arbitrary positions, but requires selective recomputation and positional-encoding (PE) adjustments. However, because these operations vary across queries, KV for the same chunk diverges across requests. Moreover, without page alignment, chunk KV layouts diverge in memory, preventing page sharing. These issues result in only modest HBM savings even when many requests reuse the same content. We present MEPIC, a memory-efficient PIC system that enables chunk KV reuse across positions, requests, and batches. MEPIC aligns chunk KV to paged storage, shifts recomputation from token- to block-level so only the first block is request-specific, removes positional encodings via Rotary Position Embedding (RoPE) fusion in the attention kernel, and makes remaining blocks fully shareable. These techniques eliminate most duplicate chunk KV in HBM, reducing usage by up to 2x over state-of-the-art PIC at comparable latency and accuracy, and up to 5x for long prompts, without any model changes.
- Abstract(参考訳): ディープリサーチアシスタント、コーディングエージェント、レトリーバル拡張生成(RAG)システムなどの現代のLLMアプリケーションは、共有ドキュメントやコードチャンクを含む長いプロンプト履歴を繰り返し処理し、高いスループットと低レイテンシを維持しながらメモリ内で動作しなければならないキーバリュー(KV)キャッシュにかなりの圧力をかける。
プリフィックスキャッシュは、前処理されたトークンに対してKVキャッシュを再利用することで、これらのコストの一部を部分的に軽減するが、厳格なプレフィックスマッチングによって制限される。
位置独立キャッシング(PIC)は任意の位置でのチャンクレベルの再利用を可能にするが、選択的再計算と位置エンコーディング(PE)調整が必要である。
しかし、これらの操作はクエリによって異なるため、同じチャンクのKVはリクエスト間で分散する。
さらに、ページアライメントなしでは、チャンクKVレイアウトがメモリに分散し、ページ共有が防止される。
これらの問題は、多くのリクエストが同じコンテンツを再利用しても、控えめなHBMの節約にしかならない。
本稿では,メモリ効率のよいPICシステムであるMEPICを提案する。
MEPICはチャンクKVをページストレージにアライメントし、トークンレベルからブロックレベルに再計算をシフトするので、最初のブロックだけが要求固有であり、アテンションカーネルのRotary Position Embedding (RoPE) 融合を介して位置エンコーディングを除去し、残りのブロックを完全に共有できるようにする。
これらの技術は、HBMのほとんどの重複したチャンクKVを排除し、同等のレイテンシと精度で最先端のPICを最大2倍まで削減し、モデル変更なしに長いプロンプトで最大5倍まで削減する。
関連論文リスト
- KVSwap: Disk-aware KV Cache Offloading for Long-Context On-device Inference [6.159622195480178]
言語モデル(LM)は、ミーティングやビデオの要約、ドキュメント分析といった、モバイルおよび組み込みAIアプリケーションを支えるものだ。
キー値(KV)キャッシュがコンテキスト長とバッチサイズとともに線形に増加するため、長コンテキスト推論はすぐにメモリキャパシティウォールにヒットする。
KVSwapは、KVキャッシュを非揮発性二次記憶装置(ディスク)にオフロードすることで、このメモリ壁を壊すソフトウェアフレームワークである。
KVSwapは、既存のKVキャッシュオフロード方式と比較して、生成品質を維持しながら、厳しいメモリ予算の下で高いスループットを提供する。
論文 参考訳(メタデータ) (2025-11-14T22:37:57Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - PM-KVQ: Progressive Mixed-precision KV Cache Quantization for Long-CoT LLMs [18.315998135174652]
トレーニング後のKVキャッシュ量子化は、有望な圧縮技術として登場した。
既存のメソッドは、利用可能なメモリを適切に活用できない。
短いコンテキストのキャリブレーションでは、キーキャッシュ内の頻度の低いチャネルの分散を考慮できません。
論文 参考訳(メタデータ) (2025-05-24T09:18:11Z) - A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - BatchLLM: Optimizing Large Batched LLM Inference with Global Prefix Sharing and Throughput-oriented Token Batching [2.392066774757727]
大規模言語モデル(LLM)は、幅広い情報処理や管理タスクにおいて、ますます重要な役割を担っている。
これらのタスクは通常プレフィックス共有の特徴を示し、異なるプロンプト入力は共通プレフィックスを部分的に示すことができる。
既存のソリューションでは、リクエスト間の共通プレフィックスのKVコンテキストを再利用するために、LRUベースのキャッシュを使用している。
上記の問題に対処するため,BatchLLMを提案する。
論文 参考訳(メタデータ) (2024-11-29T05:57:37Z) - EPIC: Efficient Position-Independent Caching for Serving Large Language Models [19.510078997414606]
キャッシングは、リクエスト間でキーバリューベクトルを再利用することで、パフォーマンスを向上させる。
既存のコンテキストキャッシュでは、リクエストにまたがる正確なプレフィックスが必要である。
位置独立キャッシング (PIC) を導入し, プレフィックスによらず KV ベクトルのモジュラー再利用を可能にする。
また、新しいLegoLinkアルゴリズムを取り入れたサービスシステムEPICも導入しています。
論文 参考訳(メタデータ) (2024-10-20T08:42:29Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。