論文の概要: Towards Efficient Key-Value Cache Management for Prefix Prefilling in LLM Inference
- arxiv url: http://arxiv.org/abs/2505.21919v1
- Date: Wed, 28 May 2025 03:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.386842
- Title: Towards Efficient Key-Value Cache Management for Prefix Prefilling in LLM Inference
- Title(参考訳): LLM推論におけるプリフィリングのためのキーバリューキャッシュ管理の効率化に向けて
- Authors: Yue Zhu, Hao Yu, Chen Wang, Zhuoran Liu, Eun Kyung Lee,
- Abstract要約: 推論ワークロードは高いキャッシュ再利用性を示し、冗長性の低減とスピード向上に効率的なキャッシュが不可欠である。
我々は、公開されているトレースを用いて現実世界のKVCアクセスパターンを分析し、KVCメタデータ管理のためのRedisや最先端RDMAベースのシステムのような商用キーバリューストアを評価する。
- 参考スコア(独自算出の注目度): 10.499422091699918
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The increasing adoption of large language models (LLMs) with extended context windows necessitates efficient Key-Value Cache (KVC) management to optimize inference performance. Inference workloads like Retrieval-Augmented Generation (RAG) and agents exhibit high cache reusability, making efficient caching critical to reducing redundancy and improving speed. We analyze real-world KVC access patterns using publicly available traces and evaluate commercial key-value stores like Redis and state-of-the-art RDMA-based systems (CHIME [1] and Sherman [2]) for KVC metadata management. Our work demonstrates the lack of tailored storage solution for KVC prefilling, underscores the need for an efficient distributed caching system with optimized metadata management for LLM workloads, and provides insights into designing improved KVC management systems for scalable, low-latency inference.
- Abstract(参考訳): 拡張コンテキストウィンドウを備えた大規模言語モデル(LLM)の採用の増加は、推論性能を最適化するために効率的なキーバリューキャッシュ(KVC)管理を必要とする。
Retrieval-Augmented Generation(RAG)やエージェントなどの推論ワークロードは、高いキャッシュ再利用性を示し、冗長性の低減とスピード向上に効率的なキャッシュが不可欠である。
実世界のKVCアクセスパターンを公開トレースを用いて分析し、KVCメタデータ管理のためにRedisや最先端RDMAベースのシステム(CHIME [1]およびSherman [2])のような商用キーバリューストアを評価する。
我々の研究は、KVCプリフィルのための調整済みストレージソリューションが欠如していることを示し、LLMワークロードに最適化されたメタデータ管理を備えた効率的な分散キャッシュシステムの必要性を強調し、スケーラブルで低レイテンシな推論のために改良されたKVC管理システムの設計に関する洞察を提供する。
関連論文リスト
- AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference [11.73134417321505]
本稿では,LVLM推論の高速化を目的とした新しいKVキャッシュ圧縮手法であるAirCacheを提案する。
本手法は,視覚的KVキャッシュの10%を保ちながら,フルキャッシュに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-03-31T11:13:18Z) - Dynamic Optimization of Storage Systems Using Reinforcement Learning Techniques [40.13303683102544]
本稿では,ストレージシステム構成を動的に最適化する強化学習ベースのフレームワークであるRL-Storageを紹介する。
RL-Storageは、リアルタイムI/Oパターンから学習し、キャッシュサイズ、キュー深さ、readahead設定などの最適なストレージパラメータを予測する。
スループットは最大2.6倍、レイテンシはベースラインに比べて43%向上する。
論文 参考訳(メタデータ) (2024-12-29T17:41:40Z) - A Survey on Large Language Model Acceleration based on KV Cache Management [21.4802409745396]
大規模言語モデル(LLM)は、自然言語処理、コンピュータビジョン、マルチモーダルタスクなど、幅広い領域に革命をもたらした。
LLMの計算とメモリ要求は、それらを現実世界、長期コンテキスト、リアルタイムアプリケーションにスケールする際に大きな課題を生じさせる。
このサーベイは、LLMアクセラレーションのためのKVキャッシュ管理戦略を包括的に概観し、トークンレベル、モデルレベル、システムレベルの最適化に分類する。
論文 参考訳(メタデータ) (2024-12-27T04:17:57Z) - CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。
CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。
我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2024-12-16T13:01:53Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - EPIC: Efficient Position-Independent Caching for Serving Large Language Models [19.510078997414606]
キャッシングは、リクエスト間でキーバリューベクトルを再利用することで、パフォーマンスを向上させる。
既存のコンテキストキャッシュでは、リクエストにまたがる正確なプレフィックスが必要である。
位置独立キャッシング (PIC) を導入し, プレフィックスによらず KV ベクトルのモジュラー再利用を可能にする。
また、新しいLegoLinkアルゴリズムを取り入れたサービスシステムEPICも導入しています。
論文 参考訳(メタデータ) (2024-10-20T08:42:29Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Digital Twin-Assisted Data-Driven Optimization for Reliable Edge Caching in Wireless Networks [60.54852710216738]
我々はD-RECと呼ばれる新しいデジタルツインアシスト最適化フレームワークを導入し、次世代無線ネットワークにおける信頼性の高いキャッシュを実現する。
信頼性モジュールを制約付き決定プロセスに組み込むことで、D-RECは、有利な制約に従うために、アクション、報酬、状態を適応的に調整することができる。
論文 参考訳(メタデータ) (2024-06-29T02:40:28Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。