論文の概要: RelayCaching: Accelerating LLM Collaboration via Decoding KV Cache Reuse
- arxiv url: http://arxiv.org/abs/2603.13289v1
- Date: Sat, 28 Feb 2026 04:46:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.271303
- Title: RelayCaching: Accelerating LLM Collaboration via Decoding KV Cache Reuse
- Title(参考訳): RelayCaching: KVキャッシュ再利用によるLLMコラボレーションの高速化
- Authors: Yingsheng Geng, Yuchong Gao, Weihong Wu, Guyue Liu, Jiang Liu,
- Abstract要約: RelayCachingはトレーニング不要な推論手法で、前のエージェントから復号フェーズKVキャッシュを直接再利用する。
RelayCachingは80%以上のKVキャッシュの再利用を実現し、TTFTを標準パイプラインと比較して最大4.7倍のコストで削減できることを示す。
- 参考スコア(独自算出の注目度): 5.597099794399441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing complexity of AI tasks has shifted the paradigm from monolithic models toward multi-agent large language model (LLM) systems. However, these collaborative architectures introduce a critical bottleneck: redundant prefill computation for shared content generated by previous agents, which significantly increases KV cache memory usage and time-to-first-token (TTFT). While various KV cache methods have been proposed to mitigate prefill redundancy, they either fail to maintain accuracy on agent-generated outputs or exhibit low reuse rates due to rigid constraints. We present RelayCaching, a training-free inference method that directly reuses decoding phase KV caches from previous agents in subsequent prefill phases. Our key insight is that KV caches for identical content are highly consistent across phases, while prefix-induced deviations are sparse and localized within a limited range of layers and token positions. By selectively recomputing KV caches at these positions, RelayCaching preserves model accuracy with minimal overhead, yielding a superior accuracy-efficiency trade-off over existing methods. Experiments on diverse collaborative LLM tasks spanning mathematical reasoning, general knowledge, and code generation demonstrate that RelayCaching achieves over 80% KV cache reuse, reduces TTFT by up to $4.7\times$ compared to the standard pipeline, all with negligible accuracy degradation.
- Abstract(参考訳): AIタスクの複雑さの増大により、パラダイムはモノリシックモデルからマルチエージェントな大規模言語モデル(LLM)システムへとシフトした。
前のエージェントが生成した共有コンテンツに対する冗長なプリフィル計算は、KVキャッシュメモリ使用量とTTFT(Time-to-first-token)を大幅に増加させる。
プリフィル冗長性を軽減するために様々なKVキャッシュ法が提案されているが、エージェント生成出力の精度維持に失敗するか、厳密な制約により低い再利用率を示すかのいずれかである。
トレーニング不要な推論手法であるRelayCachingは、後続のプリフィルフェーズにおいて、前のエージェントからの復号フェーズKVキャッシュを直接再利用する。
我々のキーとなる洞察は、同一コンテンツに対するKVキャッシュは相間で非常に一貫性があり、プレフィックスによって誘導される偏差は、限られた層とトークン位置内でスパースかつ局所化されていることである。
これらの位置でKVキャッシュを選択的に再計算することで、RelayCachingはモデルの精度を最小限のオーバーヘッドで保ち、既存の方法よりも精度と効率のトレードオフが優れている。
数学的推論、一般的な知識、コード生成にまたがる様々な共同LLMタスクの実験では、RelayCachingは80%以上のKVキャッシュの再利用を実現し、TTFTを標準パイプラインと比較して最大4.7\times$で削減する。
関連論文リスト
- DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction [50.99402504483692]
凍結重み付き言語モデルのための新しいゲーティングベースのKVキャッシュ消去手法を提案する。
私たちのアプローチは、プリフィルとデコードの両方の段階にシームレスに統合されます。
実験の結果,KVキャッシュの最大70%を除去しながら,ほぼ無作為な性能を維持していることがわかった。
論文 参考訳(メタデータ) (2026-01-25T03:07:54Z) - PM-KVQ: Progressive Mixed-precision KV Cache Quantization for Long-CoT LLMs [18.315998135174652]
トレーニング後のKVキャッシュ量子化は、有望な圧縮技術として登場した。
既存のメソッドは、利用可能なメモリを適切に活用できない。
短いコンテキストのキャリブレーションでは、キーキャッシュ内の頻度の低いチャネルの分散を考慮できません。
論文 参考訳(メタデータ) (2025-05-24T09:18:11Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。