論文の概要: Cache-to-Cache: Direct Semantic Communication Between Large Language Models
- arxiv url: http://arxiv.org/abs/2510.03215v1
- Date: Fri, 03 Oct 2025 17:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.523957
- Title: Cache-to-Cache: Direct Semantic Communication Between Large Language Models
- Title(参考訳): Cache-to-Cache: 大規模言語モデル間の直接意味コミュニケーション
- Authors: Tianyu Fu, Zihan Min, Hanling Zhang, Jichao Yan, Guohao Dai, Wanli Ouyang, Yu Wang,
- Abstract要約: Cache-to-Cache(C2C)は、マルチLLMモデル間の直接セマンティック通信のための新しいパラダイムである。
C2Cはニューラルネットワークを使用して、ソースモデルのKVキャッシュをターゲットモデルと融合して、直接的なセマンティックトランスファーを可能にする。
さらにテキスト通信のパラダイムを約3.0-5.0%上回り、平均2.0倍のレイテンシ向上を実現している。
- 参考スコア(独自算出の注目度): 45.60960840262871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-LLM systems harness the complementary strengths of diverse Large Language Models, achieving performance and efficiency gains unattainable by a single model. In existing designs, LLMs communicate through text, forcing internal representations to be transformed into output token sequences. This process both loses rich semantic information and incurs token-by-token generation latency. Motivated by these limitations, we ask: Can LLMs communicate beyond text? Oracle experiments show that enriching the KV-Cache semantics can improve response quality without increasing cache size, supporting KV-Cache as an effective medium for inter-model communication. Thus, we propose Cache-to-Cache (C2C), a new paradigm for direct semantic communication between LLMs. C2C uses a neural network to project and fuse the source model's KV-cache with that of the target model to enable direct semantic transfer. A learnable gating mechanism selects the target layers that benefit from cache communication. Compared with text communication, C2C utilizes the deep, specialized semantics from both models, while avoiding explicit intermediate text generation. Experiments show that C2C achieves 8.5-10.5% higher average accuracy than individual models. It further outperforms the text communication paradigm by approximately 3.0-5.0%, while delivering an average 2.0x speedup in latency. Our code is available at https://github.com/thu-nics/C2C.
- Abstract(参考訳): マルチLLMシステムは多種多様な大言語モデルの相補的な長所を生かし、単一のモデルでは達成できない性能と効率の向上を実現している。
既存の設計では、LLMはテキストを介して通信し、内部表現を出力トークンシーケンスに変換する。
このプロセスは、リッチなセマンティック情報を失い、トークン・バイ・トークン生成遅延を引き起こす。
LLMはテキストを超えて通信できますか?
Oracleの実験によると、KV-Cacheセマンティクスの強化は、キャッシュサイズを増大させることなく応答品質を向上させることができ、モデル間通信の効果的な媒体としてKV-Cacheをサポートする。
そこで我々は,LLM間の直接意味コミュニケーションのための新しいパラダイムであるCache-to-Cache (C2C)を提案する。
C2Cはニューラルネットワークを使用して、ソースモデルのKVキャッシュをターゲットモデルと融合して、直接的なセマンティックトランスファーを可能にする。
学習可能なゲーティングメカニズムは、キャッシュ通信の恩恵を受けるターゲット層を選択する。
テキスト通信と比較すると、C2Cは明示的な中間テキスト生成を避けながら、両方のモデルの深い専門的なセマンティクスを利用する。
実験によると、C2Cは個々のモデルよりも平均精度が8.5-10.5%高い。
さらにテキスト通信のパラダイムを約3.0-5.0%上回り、平均2.0倍のレイテンシ向上を実現している。
私たちのコードはhttps://github.com/thu-nics/C2Cで利用可能です。
関連論文リスト
- d$^2$Cache: Accelerating Diffusion-Based LLMs via Dual Adaptive Caching [7.004421957218099]
拡散に基づく大規模言語モデル(dLLM)は推論効率が劣る。
我々は、dLLM推論を高速化するためのトレーニング不要な近似KVキャッシュフレームワークであるd$2$Cacheを紹介した。
論文 参考訳(メタデータ) (2025-09-27T04:07:23Z) - LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。
LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文 参考訳(メタデータ) (2025-07-14T19:09:57Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - EPIC: Efficient Position-Independent Caching for Serving Large Language Models [19.510078997414606]
キャッシングは、リクエスト間でキーバリューベクトルを再利用することで、パフォーマンスを向上させる。
既存のコンテキストキャッシュでは、リクエストにまたがる正確なプレフィックスが必要である。
位置独立キャッシング (PIC) を導入し, プレフィックスによらず KV ベクトルのモジュラー再利用を可能にする。
また、新しいLegoLinkアルゴリズムを取り入れたサービスシステムEPICも導入しています。
論文 参考訳(メタデータ) (2024-10-20T08:42:29Z) - Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption [66.97998742151918]
大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。
しかし、その効率性はTransformerアーキテクチャが長いテキストを扱うのに苦労していることに疑問を投げかけられている。
KVキャッシュは、トークン生成の時間的複雑さを2次から線形に変換する、重要なソリューションとして登場した。
論文 参考訳(メタデータ) (2024-07-25T12:56:22Z) - XC-Cache: Cross-Attending to Cached Context for Efficient LLM Inference [20.249206904309816]
インコンテキスト学習(ICL)アプローチは典型的には、参照情報に基づいて条件デコーダのみの言語モデルを生成するプロンプトを活用する。
この研究は、エンコーダ・デコーダアーキテクチャにインスパイアされたモデルを導入し、プロンプトなしで参照テキストの条件生成にクロスアテンションを使用することにより、これらの制限に対処する。
質問応答(QA)をテストベッドとして使用し、条件生成能力を評価し、ICLより優れており、微調整された誘導LDMと同等であり、標準KVキャッシュと比較して空間フットプリントを2桁の精度で大幅に削減する。
論文 参考訳(メタデータ) (2024-04-23T18:10:42Z) - Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。
StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文 参考訳(メタデータ) (2023-09-29T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。