Fugu-MT 論文翻訳(概要): Cache-Craft: Managing Chunk-Caches for Efficient Retrieval-Augmented Generation

論文の概要: Cache-Craft: Managing Chunk-Caches for Efficient Retrieval-Augmented Generation

arxiv url: http://arxiv.org/abs/2502.15734v1
Date: Wed, 05 Feb 2025 14:12:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-02 20:17:19.767238
Title: Cache-Craft: Managing Chunk-Caches for Efficient Retrieval-Augmented Generation
Title（参考訳）: Cache-Craft: 効率的な検索拡張生成のためのチャンクキャッシュの管理
Authors: Shubham Agarwal, Sai Sundaresan, Subrata Mitra, Debabrata Mahapatra, Archit Gupta, Rounak Sharma, Nirmal Joshua Kapu, Tong Yu, Shiv Saini,
Abstract要約: CacheCraftは、テキストチャンクに対応する計算済みKVの再利用を管理するシステムである。再利用可能なチャンクキャッシュの特定方法、キャッシュの修正に少数の再計算を効率的に行う方法、ハードウェアにチャンクキャッシュを効率よく保存・削除する方法を示す。
参考スコア（独自算出の注目度）: 14.842469293627271
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval-Augmented Generation (RAG) is often used with Large Language Models (LLMs) to infuse domain knowledge or user-specific information. In RAG, given a user query, a retriever extracts chunks of relevant text from a knowledge base. These chunks are sent to an LLM as part of the input prompt. Typically, any given chunk is repeatedly retrieved across user questions. However, currently, for every question, attention-layers in LLMs fully compute the key values (KVs) repeatedly for the input chunks, as state-of-the-art methods cannot reuse KV-caches when chunks appear at arbitrary locations with arbitrary contexts. Naive reuse leads to output quality degradation. This leads to potentially redundant computations on expensive GPUs and increases latency. In this work, we propose Cache-Craft, a system for managing and reusing precomputed KVs corresponding to the text chunks (we call chunk-caches) in RAG-based systems. We present how to identify chunk-caches that are reusable, how to efficiently perform a small fraction of recomputation to fix the cache to maintain output quality, and how to efficiently store and evict chunk-caches in the hardware for maximizing reuse while masking any overheads. With real production workloads as well as synthetic datasets, we show that Cache-Craft reduces redundant computation by 51% over SOTA prefix-caching and 75% over full recomputation. Additionally, with continuous batching on a real production workload, we get a 1.6X speed up in throughput and a 2X reduction in end-to-end response latency over prefix-caching while maintaining quality, for both the LLaMA-3-8B and LLaMA-3-70B models.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) でドメイン知識やユーザ固有の情報を注入するためによく使われる。ユーザクエリが与えられたRAGでは、検索者は知識ベースから関連するテキストのチャンクを抽出する。これらのチャンクは、入力プロンプトの一部としてLLMに送られる。通常、任意のチャンクはユーザーの質問に対して繰り返し検索される。しかし、現在、すべての疑問に対して、LLMの注目層は入力チャンクのキー値(KV)を逐次計算している。ナイーブな再利用は、出力品質の劣化につながる。これにより、高価なGPU上の潜在的に冗長な計算が行われ、レイテンシが増加する。本研究では,RAGベースのシステムにおいて,テキストチャンクに対応するプリ計算KVの管理と再利用を行うシステムであるCache-Craftを提案する。本稿では,再利用可能なチャンクキャッシュの特定方法,キャッシュを効率よく再計算して出力品質を維持する方法,およびオーバーヘッドを隠蔽しながら再利用を最大化するためにハードウェアにチャンクキャッシュを効率よく保存・削除する方法を提案する。実運用ワークロードと合成データセットにより、Cache-CraftはSOTAプレフィックスキャッシュを51%、完全再計算を75%削減する。さらに、実運用ワークロード上での継続的バッチ処理では、スループットが1.6倍に向上し、LLaMA-3-8BモデルとLLaMA-3-70Bモデルの両方に対して、プレフィックスキャッシングよりもエンドツーエンドの応答遅延が2倍に短縮される。

関連論文リスト

LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。 LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文参考訳（メタデータ） (2025-07-14T19:09:57Z)
A Generative Caching System for Large Language Models [1.2132389187658934]
キャッシングは、大きな言語モデル(LLM)にアクセスする上で、大きなメリットをもたらす可能性がある。本稿では,LLMを用いたユーザエクスペリエンス向上のための新しいキャッシングシステムを提案する。生成キャッシングでは、複数のキャッシュされたレスポンスを合成して、これまで見たことのないクエリに対する回答を提供することができます。
論文参考訳（メタデータ） (2025-03-22T01:17:56Z)
SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文参考訳（メタデータ） (2024-12-13T17:59:52Z)
Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは計算資源とI/Oリソースを並列に最適に利用する新しいKVキャッシュローディングシステムである。 Cakeは、計算のみの手法やI/Oのみの手法と比較して、TTFT(Time to First Token)の平均2.6倍の削減を実現している。
論文参考訳（メタデータ） (2024-10-04T01:11:09Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion [15.344568214955688]
大規模な言語モデル(LLM)は、必要なコンテキストを提供するために、入力に複数のテキストチャンクを組み込むことが多い。長いLLM入力のプリフィルを高速化するため、別のLLM入力のプレフィックスとしてコンテキストが再利用された場合、テキストのKVキャッシュをプリコンプリートし、KVキャッシュを再使用することができる。本稿では,KVキャッシュを高速に組み合わせて,高価なプリフィルと同世代の品質を実現する方法を提案する。
論文参考訳（メタデータ） (2024-05-26T06:00:17Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)
CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving [31.766738294505767]
CacheGenは、大きな言語モデルのための高速なコンテキストローディングモジュールである。カスタムテンソルエンコーダを使用して、KVキャッシュをコンパクトなビットストリーム表現にエンコードする。 KVキャッシュの異なる部分の圧縮レベルを適用して、利用可能な帯域幅の変化に対処する。
論文参考訳（メタデータ） (2023-10-11T07:08:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。