論文の概要: An experimental study of KV cache reuse strategies in chunk-level caching systems
- arxiv url: http://arxiv.org/abs/2603.20218v1
- Date: Tue, 03 Mar 2026 16:20:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.900085
- Title: An experimental study of KV cache reuse strategies in chunk-level caching systems
- Title(参考訳): チャンクレベルのキャッシュシステムにおけるKVキャッシュ再利用戦略に関する実験的研究
- Authors: Samuel Cestola, Tianxiang Xia, Zheng Weiyan, Zheng Pengfei, Diego Didona,
- Abstract要約: Retrieval-augmented generationは、関連するテキストをプロンプトに追加することで、大きな言語モデルの精度を向上させる。
チャンクレベルキャッシュ(CLC)は、取得したチャンクのKVキャッシュをプリ計算して再利用することで、推論を加速する。
既存のCLCアプローチには,その精度や適用性を制限する基本的な制限があることが示されている。
我々は,これらを慎重に組み合わせ,精度を向上する新しいLCC設計を提案する。
- 参考スコア(独自算出の注目度): 0.6338047104436421
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Retrieval-augmented generation improves large language models' accuracy by adding relevant retrieved text to the prompt. Chunk level caching (CLC) accelerates inference by precomputing KV caches for these retrieved chunks and reusing them. However, these caches miss cross-attention dependencies between chunks, which can reduce output quality. Several methods try to improve CLC accuracy using different techniques. We make two main contributions. First, we show that existing CLC approaches have fundamental limitations that limit their accuracy or their applicability. We back this conclusion with an extensive CLC system experimental evaluation. Second, we observe that existing CLC techniques are complementary. We leverage this insight to propose a new CLC design that carefully combines them and achieves better accuracy.
- Abstract(参考訳): Retrieval-augmented generationは、関連するテキストをプロンプトに追加することで、大きな言語モデルの精度を向上させる。
チャンクレベルキャッシュ(CLC)は、取得したチャンクのKVキャッシュをプリ計算して再利用することで、推論を加速する。
しかし、これらのキャッシュはチャンク間の相互依存を欠くため、出力品質が低下する可能性がある。
いくつかの手法は異なる手法を用いてCLCの精度を向上しようとする。
主な貢献は2つある。
まず,既存のCLC手法は,その精度や適用性に限界があることを示す。
我々はこの結論をCLCシステムの実験的な評価で裏付ける。
第2に、既存のCLC技術が相補的であることを観察する。
我々はこの知見を活用して、それらを慎重に組み合わせ、より精度の高いCLC設計を提案する。
関連論文リスト
- RelayCaching: Accelerating LLM Collaboration via Decoding KV Cache Reuse [5.597099794399441]
RelayCachingはトレーニング不要な推論手法で、前のエージェントから復号フェーズKVキャッシュを直接再利用する。
RelayCachingは80%以上のKVキャッシュの再利用を実現し、TTFTを標準パイプラインと比較して最大4.7倍のコストで削減できることを示す。
論文 参考訳(メタデータ) (2026-02-28T04:46:28Z) - TaDA: Training-free recipe for Decoding with Adaptive KV Cache Compression and Mean-centering [10.427881558469442]
量子化精度の高いKVキャッシュ圧縮のためのトレーニング不要なレシピであるTaDAを紹介する。
提案手法は,様々なコンテキスト長をサポートする複数のモデルに対して,大幅な精度向上を実現する。
本手法は,言語モデルにおけるスケーラブルで高性能な推論手法である。
論文 参考訳(メタデータ) (2025-06-05T05:23:38Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - PM-KVQ: Progressive Mixed-precision KV Cache Quantization for Long-CoT LLMs [18.315998135174652]
トレーニング後のKVキャッシュ量子化は、有望な圧縮技術として登場した。
既存のメソッドは、利用可能なメモリを適切に活用できない。
短いコンテキストのキャリブレーションでは、キーキャッシュ内の頻度の低いチャネルの分散を考慮できません。
論文 参考訳(メタデータ) (2025-05-24T09:18:11Z) - Cocktail: Chunk-Adaptive Mixed-Precision Quantization for Long-Context LLM Inference [24.184349246524587]
CocktailはKVキャッシュを最適化するためにチャンク適応型混合精度量子化を採用している。
チャンクレベルの量子化探索は、KVキャッシュチャンクの最適ビット幅構成を決定する。
Cocktailは、さまざまなモデルやデータセット上で、最先端のKVキャッシュ量子化手法より優れている。
論文 参考訳(メタデータ) (2025-03-30T03:20:34Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption [66.97998742151918]
大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。
しかし、その効率性はTransformerアーキテクチャが長いテキストを扱うのに苦労していることに疑問を投げかけられている。
KVキャッシュは、トークン生成の時間的複雑さを2次から線形に変換する、重要なソリューションとして登場した。
論文 参考訳(メタデータ) (2024-07-25T12:56:22Z) - Efficient LLM Inference with Kcache [3.945956673130761]
大規模言語モデル(LLM)はAIアプリケーションに大きな影響を与えている。
KVキャッシュ技術は業界で最も広く使われている技術の一つである。
本稿では,LLM 推論プロセスにおけるメモリボトルネック問題を軽減するため,新しい KCache 手法を提案する。
論文 参考訳(メタデータ) (2024-04-28T03:11:42Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。