論文の概要: Q-KVComm: Efficient Multi-Agent Communication Via Adaptive KV Cache Compression
- arxiv url: http://arxiv.org/abs/2512.17914v1
- Date: Thu, 27 Nov 2025 10:45:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 00:37:57.043432
- Title: Q-KVComm: Efficient Multi-Agent Communication Via Adaptive KV Cache Compression
- Title(参考訳): Q-KVComm: 適応KVキャッシュ圧縮による効率的なマルチエージェント通信
- Authors: Boris Kriuk, Logic Ng,
- Abstract要約: 我々は,圧縮キー値(KV)キャッシュ表現をエージェント間で直接送信できる新しいプロトコルであるQ-KVCommを紹介する。
Q-KVCommはセマンティックな忠実さを維持しながら5-6倍の圧縮比を達成し、コヒーレンスの品質スコアはすべてのシナリオで0.77以上である。
我々の研究は、テキストベースの情報交換から表現ベースの情報交換へ移行し、LLMエージェント通信のための新しいパラダイムを確立する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent Large Language Model (LLM) systems face a critical bottleneck: redundant transmission of contextual information between agents consumes excessive bandwidth and computational resources. Traditional approaches discard internal semantic representations and transmit raw text, forcing receiving agents to recompute similar representations from scratch. We introduce Q-KVComm, a new protocol that enables direct transmission of compressed key-value (KV) cache representations between LLM agents. Q-KVComm combines three key innovations: (1) adaptive layer-wise quantization that allocates variable bit-widths based on sensitivity profiling, (2) hybrid information extraction that preserves critical facts across content domains, and (3) heterogeneous model calibration establishing cross-architecture communication. Extensive experiments across three diverse question-answering datasets demonstrate that Q-KVComm achieves 5-6x compression ratios while maintaining semantic fidelity, with coherence quality scores above 0.77 across all scenarios. The protocol exhibits robust performance across model sizes (1.1B-1.5B parameters) and adapts to real-world applications including conversational QA and multi-hop reasoning. Our work establishes a new paradigm for LLM agent communication, shifting from text-based to representation-based information exchange.
- Abstract(参考訳): エージェント間のコンテキスト情報の冗長な送信は、過剰な帯域幅と計算資源を消費する。
従来のアプローチでは、内部の意味表現を廃止し、生のテキストを送信するため、受信エージェントは同様の表現をスクラッチから再計算せざるを得なかった。
我々は,圧縮キー値(KV)キャッシュ表現をLLMエージェント間で直接伝送する新しいプロトコルであるQ-KVCommを紹介する。
Q-KVCommは、(1)感度プロファイリングに基づく可変ビット幅を割り当てる適応層ワイド量子化、(2)コンテンツ領域間で重要な事実を保存するハイブリッド情報抽出、(3)クロスアーキテクチャ通信を確立する異種モデル校正の3つの重要なイノベーションを組み合わせている。
Q-KVCommはセマンティックな忠実さを維持しながら5~6倍の圧縮比を達成し、すべてのシナリオでコヒーレンス品質スコアは0.77以上である。
このプロトコルはモデルサイズ(1.1B-1.5Bパラメータ)にわたって堅牢な性能を示し、会話型QAやマルチホップ推論を含む現実世界のアプリケーションに適応する。
我々の研究は、テキストベースの情報交換から表現ベースの情報交換へ移行し、LLMエージェント通信のための新しいパラダイムを確立する。
関連論文リスト
- Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - KVCOMM: Online Cross-context KV-cache Communication for Efficient LLM-based Multi-agent Systems [25.770173970846884]
KVCOMMは、マルチエージェント推論における効率的なプリフィルを可能にする、トレーニング不要のフレームワークである。
KVCOMMはキャッシュされたサンプル終端アンカーのプールを参照することにより、共有コンテンツのKVキャッシュを推定し、調整する。
KVCOMMは多様なマルチエージェントワークロード間で70%以上の再利用率を達成する。
論文 参考訳(メタデータ) (2025-10-14T18:00:01Z) - Communication-Efficient Multi-Agent 3D Detection via Hybrid Collaboration [34.67157102711333]
協調3D検出は、エージェントが相補的な情報を交換できるようにすることで、検出性能を大幅に向上させることができる。
本稿では,2種類のコミュニケーションメッセージを適応的に統合する新しいハイブリッドコラボレーションを提案する。
We present textttHyComm, a communication- efficient LiDAR based collaborative 3D detection system。
論文 参考訳(メタデータ) (2025-08-09T20:33:37Z) - Compressed Feature Quality Assessment: Dataset and Baselines [89.62929964441962]
圧縮された特徴のセマンティック忠実度を評価するための最初のベンチマークデータセットを提案する。
MSE、コサイン類似性、CKA(Centered Kernel Alignment)という3つの広く使われているメトリクスを、意味的劣化を捉える能力の観点から体系的に評価する。
この研究は、基礎的なベンチマークを確立し、コミュニティがCFQAを探索するための重要なリソースを提供することによって、この分野を前進させます。
論文 参考訳(メタデータ) (2025-06-09T04:16:39Z) - Tensor Product Attention Is All You Need [61.3442269053374]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。
TPAは、メモリ効率とともに改善されたモデル品質を実現する。
TPAに基づいて,シーケンスモデリングのための新しいモデルアーキテクチャであるProducT ATTion Transformer (T6)を紹介する。
論文 参考訳(メタデータ) (2025-01-11T03:37:10Z) - Fed-CVLC: Compressing Federated Learning Communications with
Variable-Length Codes [54.18186259484828]
フェデレートラーニング(FL)パラダイムでは、パラメータサーバ(PS)がモデル収集、更新アグリゲーション、複数のラウンドでのモデル分散のために、分散参加クライアントと同時通信する。
FLの圧縮には可変長が有用であることを示す。
本稿では,Fed-CVLC(Federated Learning Compression with Variable-Length Codes)を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:25:21Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。