論文の概要: Latent Cache Flow: Model-to-Model Communication Without Text
- arxiv url: http://arxiv.org/abs/2605.22863v1
- Date: Tue, 19 May 2026 19:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.004275
- Title: Latent Cache Flow: Model-to-Model Communication Without Text
- Title(参考訳): 潜在キャッシュフロー:テキストのないモデル間通信
- Authors: Maximillian Rossi, Prajwal Raghunath, Eugene Wu,
- Abstract要約: 現在、LLMエージェントはテキストを介して通信しており、共有者のモデルの状態を自動回帰的にデコードし、受信者のモデルでエンコードする必要があるため、遅延や情報損失がかなり大きい。
Cache-to-Cache(C2C)のような最近の作業では、共有者KV行列をレシーバモデルに変換するアダプタを学習することで、KVキャッシュの交換を試みている。
我々はLatent Cache Flow (LCF)を導入し、アダプタをC2Cのサイズの約4%に削減した。
- 参考スコア(独自算出の注目度): 4.367487430553732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents today communicate via text, which incurs considerable latency and information loss due to the need to autoregressively decode the sharer model's state and encode at the receiver model. Recent work such as Cache-to-Cache (C2C; Fu et al., 2026) seeks to exchange KV caches by learning adapters that translate sharer KV matrices to the receiver model. However, the adapters are large and expensive to train, and translate individual tokens, which requires the target context to be identical. This is unsuitable for agent communication, where the LLMs have differing context. We introduce Latent Cache Flow (LCF). To address efficiency, we observe that keys and values can be jointly translated and compressed, reducing the adapter to about 4% of C2C's size. To address differing context, we design the adapter to transmit a summary of new information that the target model does not have. Our early experiments show that a 13 MB LCF adapter can be more accurate than a 956 MB C2C adapter in shared-context settings; for different contexts, LCF is 23% more accurate and 8.5x faster than text-based communication.
- Abstract(参考訳): LLMエージェントは、現在テキストを介して通信しており、共有モデルの状態を自動回帰的にデコードし、レシーバモデルでエンコードする必要があるため、かなりの遅延と情報損失を引き起こしている。
Cache-to-Cache (C2C; Fu et al , 2026)のような最近の研究は、共有KV行列をレシーバモデルに変換するアダプタを学習することで、KVキャッシュを交換しようとしている。
しかし、アダプタは大きくて高価で、個別のトークンを翻訳し、ターゲットのコンテキストを同一にする必要がある。
これは、LLMがコンテキストが異なるエージェント通信には適さない。
LCF(Latent Cache Flow)を紹介する。
効率を改善するために、キーと値が共同で変換され、圧縮可能であることを観察し、アダプタをC2Cの約4%に削減した。
異なるコンテキストに対処するため、ターゲットモデルが持たない新しい情報の要約を送信するアダプタを設計する。
初期の実験では、共有コンテキスト設定では、13MBのLCFアダプタが956MBのC2Cアダプタよりも正確であることが示されており、異なるコンテキストでは、LCFはテキストベースの通信よりも23%正確で8.5倍高速である。
関連論文リスト
- Cache-to-Cache: Direct Semantic Communication Between Large Language Models [45.60960840262871]
Cache-to-Cache(C2C)は、マルチLLMモデル間の直接セマンティック通信のための新しいパラダイムである。
C2Cはニューラルネットワークを使用して、ソースモデルのKVキャッシュをターゲットモデルと融合して、直接的なセマンティックトランスファーを可能にする。
さらにテキスト通信のパラダイムを約3.0-5.0%上回り、平均2.0倍のレイテンシ向上を実現している。
論文 参考訳(メタデータ) (2025-10-03T17:52:32Z) - CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。
まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。
提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文 参考訳(メタデータ) (2025-06-23T17:50:11Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption [66.97998742151918]
大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。
しかし、その効率性はTransformerアーキテクチャが長いテキストを扱うのに苦労していることに疑問を投げかけられている。
KVキャッシュは、トークン生成の時間的複雑さを2次から線形に変換する、重要なソリューションとして登場した。
論文 参考訳(メタデータ) (2024-07-25T12:56:22Z) - XC-Cache: Cross-Attending to Cached Context for Efficient LLM Inference [20.249206904309816]
インコンテキスト学習(ICL)アプローチは典型的には、参照情報に基づいて条件デコーダのみの言語モデルを生成するプロンプトを活用する。
この研究は、エンコーダ・デコーダアーキテクチャにインスパイアされたモデルを導入し、プロンプトなしで参照テキストの条件生成にクロスアテンションを使用することにより、これらの制限に対処する。
質問応答(QA)をテストベッドとして使用し、条件生成能力を評価し、ICLより優れており、微調整された誘導LDMと同等であり、標準KVキャッシュと比較して空間フットプリントを2桁の精度で大幅に削減する。
論文 参考訳(メタデータ) (2024-04-23T18:10:42Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。