論文の概要: ICaRus: Identical Cache Reuse for Efficient Multi Model Inference
- arxiv url: http://arxiv.org/abs/2603.13281v1
- Date: Fri, 27 Feb 2026 14:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.262468
- Title: ICaRus: Identical Cache Reuse for Efficient Multi Model Inference
- Title(参考訳): ICaRus: 効率的なマルチモデル推論のためのIdentical Cache Reuse
- Authors: Sunghyeon Woo, Jaeeun Kil, Hoseung Kim, Minsub Kim, Joonghoon Kim, Ahreum Seo, Sungjae Lee, Minjung Jo, Jiwon Ryu, Baeseong Park, Se Jung Kwon, Dongsoo Lee,
- Abstract要約: ICaRusは、複数のモデルで同一のKVキャッシュをすべての層で共有できる新しいアーキテクチャである。
ICaRusは最大11.1倍のP95レイテンシを実現し、8つの異なるモデルを持つマルチエージェントワークフローにおいて3.8倍のスループットを実現している。
- 参考スコア(独自算出の注目度): 14.040073161061578
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi model inference has recently emerged as a prominent paradigm, particularly in the development of agentic AI systems. However, in such scenarios, each model must maintain its own Key-Value (KV) cache for the identical prompt, leading to substantial memory consumption. This explosive growth of KV caches forces LLM serving systems to evict previously stored caches, which in turn introduces significant recomputation overhead whenever the evicted caches are required again. Moreover, prefix caching is inherently infeasible across different models, forcing each model to recompute KV cache for the identical prompt, which leads to significant overhead. To alleviate these issues, we propose Identical Cache Reuse (ICaRus), a novel architecture that allows multiple models to share identical KV caches across all layers. ICaRus is based on the key observation that a decoder-only Transformer can be conceptually decomposed into a logical encoder, which generates KV caches, and a logical decoder, which predicts output tokens from the KV caches. ICaRus fine-tunes only the logical decoder while freezing the logical encoder, enabling multiple models to share an identical KV cache. This eliminates cache memory explosion and unexpected evictions while also allowing cross-model reuse of KV caches for new input tokens, thereby removing redundant recomputation in multi model inference achieving both efficiency and scalability. Moreover, by incorporating lightweight adapters such as LoRA, ICaRus parallelizes KV cache generation and next-token prediction during decoding. ICaRus achieves comparable accuracy to task-specific fine-tuned model across a diverse set of tasks, while allowing multiple specialized models to fully share KV caches. ICaRus achieves up to 11.1x lower P95 latency and 3.8x higher throughput in multi agent workflow with 8 different models, compared to conventional multi model system.
- Abstract(参考訳): マルチモデル推論は、特にエージェントAIシステムの開発において、最近顕著なパラダイムとして登場した。
しかしながら、このようなシナリオでは、各モデルは同一のプロンプトに対して独自のキーバリュー(KV)キャッシュを保持しなければならないため、かなりのメモリ消費につながる。
このKVキャッシュの爆発的な増加は、LCMサービスシステムに対して、以前保存されていたキャッシュを削除させるよう強制する。
さらに、プレフィックスキャッシュは本質的に異なるモデル間で実現不可能であり、各モデルは同一のプロンプトに対してKVキャッシュを再コンパイルし、大きなオーバーヘッドをもたらす。
これらの問題を緩和するために、複数のモデルで同一のKVキャッシュをすべての層で共有できる新しいアーキテクチャであるICaRus(ICaRus)を提案する。
ICaRusは、デコーダのみのトランスフォーマーを概念的にはKVキャッシュを生成する論理エンコーダと、KVキャッシュから出力トークンを予測する論理デコーダに分解できるというキーオブザーバに基づいている。
ICaRusは論理デコーダのみを微調整し、論理エンコーダを凍結することで、複数のモデルで同一のKVキャッシュを共有することができる。
これにより、キャッシュメモリの爆発と予期せぬ消去を排除し、新しい入力トークンに対するKVキャッシュのクロスモデル再利用を可能にし、効率性とスケーラビリティの両方を達成するマルチモデル推論における冗長な再計算を排除できる。
さらに、LoRAのような軽量アダプタを組み込むことで、ICaRusはデコード中のKVキャッシュ生成と次トーケン予測を並列化する。
ICaRusはタスク固有の細調整モデルに匹敵する精度を実現し、複数の特殊なモデルでKVキャッシュを完全に共有できる。
ICaRusは従来のマルチモデルシステムと比較して最大11.1倍のP95レイテンシを実現し、マルチエージェントワークフローでは3.8倍のスループットを実現している。
関連論文リスト
- RelayCaching: Accelerating LLM Collaboration via Decoding KV Cache Reuse [5.597099794399441]
RelayCachingはトレーニング不要な推論手法で、前のエージェントから復号フェーズKVキャッシュを直接再利用する。
RelayCachingは80%以上のKVキャッシュの再利用を実現し、TTFTを標準パイプラインと比較して最大4.7倍のコストで削減できることを示す。
論文 参考訳(メタデータ) (2026-02-28T04:46:28Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - CAKE: Cascading and Adaptive KV Cache Eviction with Layer Preferences [36.05521425453999]
大きな言語モデル(LLM)は長いシーケンスの処理に優れ、キーバリュー(KV)キャッシングの需要が増大する。
我々は、KVキャッシュ消去を「ケーキスライシング問題」とみなす新しいアプローチであるCascading and Adaptive KV cache Eviction (CAKE)を導入する。
CAKEは、空間次元と時間次元の両方の注意ダイナミクスを考慮して層固有の好みを評価し、それに応じて合理的なキャッシュサイズを割り当て、カスケード方式でメモリ制約を管理する。
論文 参考訳(メタデータ) (2025-03-16T12:49:44Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - DiffKV: Differentiated Memory Management for Large Language Models with Parallel KV Compaction [33.936381781692994]
DiffKVは効率的なKVキャッシュ圧縮のための新しいフレームワークである。
KVキャッシュにおける3つのレベルの分化を利用する。
KVキャッシュを2.7Times$から5.7times$に圧縮できる。
論文 参考訳(メタデータ) (2024-12-04T08:51:23Z) - A Method for Building Large Language Models with Predefined KV Cache Capacity [11.710667043543545]
境界キャッシュ変換器(BCT)は、従来のKVキャッシュの過剰なメモリ消費問題に対処する。
キー値ベクトル列を動的に更新することにより、BCTは限られたキャッシュ容量内で効率的な推論を実現する。
実験の結果,BCTは推論品質を維持しながらメモリ使用量を大幅に削減することがわかった。
論文 参考訳(メタデータ) (2024-11-24T11:30:00Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。