Fugu-MT 論文翻訳(概要): Shared Disk KV Cache Management for Efficient Multi-Instance Inference in RAG-Powered LLMs

論文の概要: Shared Disk KV Cache Management for Efficient Multi-Instance Inference in RAG-Powered LLMs

arxiv url: http://arxiv.org/abs/2504.11765v1
Date: Wed, 16 Apr 2025 04:59:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-24 21:52:13.848722
Title: Shared Disk KV Cache Management for Efficient Multi-Instance Inference in RAG-Powered LLMs
Title（参考訳）: RAG方式LLMにおける効率的なマルチインスタンス推論のための共有ディスクKVキャッシュ管理
Authors: Hyungwoo Lee, Kihyun Kim, Jinwoo Kim, Jungmin So, Myung-Hoon Cha, Hong-Yeon Kim, James J. Kim, Youngjae Kim,
Abstract要約: 最近の大規模言語モデル(LLM)は、入力コンテキストの長さとモデルサイズが大きくなるにつれて、推論遅延が増加する。本稿では,ディスクベースのキー値(KV)キャッシュを利用して,プリフィル時の計算負担を軽減することによるTTFT削減手法を提案する。また、マルチインスタンスLLM RAGサービス環境のためのディスクベースの共有KVキャッシュ管理システムであるShared RAG-DCacheを導入する。
参考スコア（独自算出の注目度）: 5.02504911036896
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent large language models (LLMs) face increasing inference latency as input context length and model size continue to grow. In particular, the retrieval-augmented generation (RAG) technique, which enhances LLM responses by incorporating external knowledge, exacerbates this issue by significantly increasing the number of input tokens. This expansion in token length leads to a substantial rise in computational overhead, particularly during the prefill stage, resulting in prolonged time-to-first-token (TTFT). To address this issue, this paper proposes a method to reduce TTFT by leveraging a disk-based key-value (KV) cache to lessen the computational burden during the prefill stage. We also introduce a disk-based shared KV cache management system, called Shared RAG-DCache, for multi-instance LLM RAG service environments. This system, together with an optimal system configuration, improves both throughput and latency under given resource constraints. Shared RAG-DCache exploits the locality of documents related to user queries in RAG, as well as the queueing delay in LLM inference services. It proactively generates and stores disk KV caches for query-related documents and shares them across multiple LLM instances to enhance inference performance. In experiments on a single host equipped with 2 GPUs and 1 CPU, Shared RAG-DCache achieved a 15~71% increase in throughput and up to a 12~65% reduction in latency, depending on the resource configuration.
Abstract（参考訳）: 最近の大規模言語モデル(LLM)は、入力コンテキストの長さとモデルサイズが増加し続けるにつれて、推論遅延が増大している。特に、外部知識を取り入れてLLM応答を向上させる検索強化生成(RAG)技術は、入力トークンの数を大幅に増やすことで、この問題を悪化させる。このトークン長の拡大は、特にプリフィルの段階で計算オーバーヘッドが大幅に増加し、TTFT(英語版)が長引くことになる。本稿では,ディスクベースのキー値(KV)キャッシュを利用して,プリフィル時の計算負担を軽減することでTTFTを削減する手法を提案する。また、マルチインスタンスLLM RAGサービス環境のためのディスクベースの共有KVキャッシュ管理システムであるShared RAG-DCacheを導入する。このシステムは、最適なシステム構成とともに、与えられたリソース制約の下でのスループットとレイテンシの両方を改善する。 Shared RAG-DCacheは、RAG内のユーザクエリに関連するドキュメントのローカリティと、LLM推論サービスのキュー遅延を利用する。クエリ関連のドキュメントのディスクKVキャッシュを積極的に生成し、格納し、推論性能を高めるために複数のLLMインスタンス間で共有する。 2つのGPUと1つのCPUを備えた単一ホストの実験では、リソース構成に応じて、Shared RAG-DCacheはスループットが15～71%向上し、レイテンシが12～65%削減された。

関連論文リスト

Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。 Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文参考訳（メタデータ） (2025-08-04T16:14:03Z)
LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。 LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文参考訳（メタデータ） (2025-07-14T19:09:57Z)
Apt-Serve: Adaptive Request Scheduling on Hybrid Cache for Scalable LLM Inference Serving [22.66354939370058]
Apt-Serveは、大規模言語モデル(LLM)推論サービスシステムにおける効果的なスループットを高めるために設計されたフレームワークである。新たなハイブリッドキャッシュスキームでは、KVキャッシュとメモリ効率の高い隠れキャッシュを組み合わせることで、再利用可能な入力隠れ状態ベクタを実現し、バッチサイズを大きくし、要求を改善する。 Apt-Serveは,最先端の推論サービスシステムと比較して,スループットが最大8.8倍向上することを示す。
論文参考訳（メタデータ） (2025-04-10T06:51:23Z)
QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。 DiTには、計算コストやメモリコストの増大など、大きな欠点がある。我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文参考訳（メタデータ） (2025-03-09T10:31:51Z)
CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。 CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文参考訳（メタデータ） (2024-12-16T13:01:53Z)
SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文参考訳（メタデータ） (2024-12-13T17:59:52Z)
InstCache: A Predictive Cache for LLM Serving [6.076957323090607]
キャッシング技術は、大規模言語モデル推論エンジンのパフォーマンスを最適化する機会を提供する。命令の内容と長さのばらつきが大きいため、同じ命令が短時間のウィンドウ内で再帰することは稀である。 LLMサービスシステムの予測キャッシュ機構であるInstCacheを提案する。
論文参考訳（メタデータ） (2024-11-21T03:52:41Z)
Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは計算資源とI/Oリソースを並列に最適に利用する新しいKVキャッシュローディングシステムである。 Cakeは、計算のみの手法やI/Oのみの手法と比較して、TTFT(Time to First Token)の平均2.6倍の削減を実現している。
論文参考訳（メタデータ） (2024-10-04T01:11:09Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
PQCache: Product Quantization-based KVCache for Long Context LLM Inference [27.523568511043273]
Key-Value Cache (KVCache) は、大規模言語モデル(LLM)内のトークンの中間表現である。本稿では,KVCacheの管理にPQ(Product Quantization)を採用しているPQCacheを提案する。 PQCacheは有効性と効率の両方を実現しており、InfiniteBenchの既存のメソッドよりも4.60%のスコアが向上している。
論文参考訳（メタデータ） (2024-07-01T13:05:42Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation [11.321659218769598]
Retrieval-Augmented Generation (RAG)は、様々な自然言語処理タスクにおいて大幅に改善されている。 RAGCacheは、検索した知識の中間状態を知識ツリーに整理し、それらをGPUとホストメモリ階層にキャッシュする。 RAGCacheは、最初のトークン(TTTF)までの時間を最大4倍に削減し、スループットを最大2.1倍改善する。
論文参考訳（メタデータ） (2024-04-18T18:32:30Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)
Efficient Memory Management for Large Language Model Serving with PagedAttention [44.70922552274376]
大規模言語モデル(LLM)の高スループットサービスには,一度に十分な数の要求が要求される。既存のシステムでは、各要求のキー値キャッシュ(KVキャッシュ)メモリが巨大で、成長し、動的に縮小するため、苦労している。本稿では,オペレーティングシステムにおける従来の仮想メモリとページング技術にヒントを得たアテンションアルゴリズムであるPagedAttentionを提案する。
論文参考訳（メタデータ） (2023-09-12T12:50:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。