論文の概要: When Less Latent Leads to Better Relay: Information-Preserving Compression for Latent Multi-Agent LLM Collaboration
- arxiv url: http://arxiv.org/abs/2604.13349v1
- Date: Tue, 14 Apr 2026 23:20:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.328091
- Title: When Less Latent Leads to Better Relay: Information-Preserving Compression for Latent Multi-Agent LLM Collaboration
- Title(参考訳): 遅延が低くなるとリレーが改善する:潜時多エージェントLDMコラボレーションのための情報保存圧縮
- Authors: Yiping Li, Zhiyu An, Wan Du,
- Abstract要約: 大規模言語モデル(LLM)ベースのシステムにおけるコミュニケーションは、よりリッチなコンテキストを維持するために、離散トークンを超えて進んでいる。
我々は、ハードエクリエーションからの情報損失を軽減するために、エクリエーションスタイルのKV圧縮を適用する。
数学的推論,コーディング,知識集約型QAにまたがる9つの標準ベンチマークにおいて,全KVリレーに対する提案手法の評価を行った。
- 参考スコア(独自算出の注目度): 8.381466061355143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communication in Large Language Model (LLM)-based multi-agent systems is moving beyond discrete tokens to preserve richer context. Recent work such as LatentMAS enables agents to exchange latent messages through full key-value (KV) caches. However, full KV relay incurs high memory and communication cost. We adapt eviction-style KV compression to this setting and introduce Orthogonal Backfill (OBF) to mitigate information loss from hard eviction. OBF injects a low-rank orthogonal residual from discarded KV states into the retained KV states. We evaluate proposed method against full KV relay on nine standard benchmarks spanning mathematical reasoning, coding, and knowledge-intensive QA. It achieves performance comparable to full KV relay while reducing communication cost by 79.8%--89.4%. OBF further improves the performance and achieves the best results on 7 of the 9 benchmarks. This suggests that more information does not necessarily lead to better communication; preserving the most useful information matters more. Our codebase is publicly available on https://github.com/markli404/When-Less-Latent-Leads-to-Better-Relay.
- Abstract(参考訳): LLM(Large Language Model)ベースのマルチエージェントシステムは、よりリッチなコンテキストを維持するために、離散トークンを越えている。
LatentMASのような最近の作業により、エージェントは完全なキー値(KV)キャッシュを通じて潜時メッセージを交換できる。
しかし、フルKVリレーは高いメモリと通信コストを発生させる。
我々は、この設定にエビクションスタイルのKV圧縮を適用し、Orthogonal Backfill (OBF)を導入し、ハードエビクションからの情報損失を軽減する。
OBFは廃棄されたKV状態から維持されたKV状態に低ランクの直交残基を注入する。
数学的推論,コーディング,知識集約型QAにまたがる9つの標準ベンチマークにおいて,全KVリレーに対する提案手法の評価を行った。
完全なKVリレーに匹敵する性能を実現し、通信コストを79.8%--89.4%削減した。
OBFはさらにパフォーマンスを改善し、9つのベンチマークのうち7つで最高の結果を得る。
これは、より多くの情報が必ずしもより良いコミュニケーションをもたらすとは限らないことを示唆している。
私たちのコードベースはhttps://github.com/markli404/When-Less-Latent-Leads-to-Better-Relayで公開されています。
関連論文リスト
- RelayCaching: Accelerating LLM Collaboration via Decoding KV Cache Reuse [5.597099794399441]
RelayCachingはトレーニング不要な推論手法で、前のエージェントから復号フェーズKVキャッシュを直接再利用する。
RelayCachingは80%以上のKVキャッシュの再利用を実現し、TTFTを標準パイプラインと比較して最大4.7倍のコストで削減できることを示す。
論文 参考訳(メタデータ) (2026-02-28T04:46:28Z) - DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction [50.99402504483692]
凍結重み付き言語モデルのための新しいゲーティングベースのKVキャッシュ消去手法を提案する。
私たちのアプローチは、プリフィルとデコードの両方の段階にシームレスに統合されます。
実験の結果,KVキャッシュの最大70%を除去しながら,ほぼ無作為な性能を維持していることがわかった。
論文 参考訳(メタデータ) (2026-01-25T03:07:54Z) - G-KV: Decoding-Time KV Cache Eviction with Global Attention [57.47409249054187]
大規模言語モデル(LLM)は複雑なタスクに優れるが、長いシーケンス長のため、計算とメモリの重大な課題に遭遇する。
KVキャッシュ圧縮は推論の効率を大幅に向上させる効果的な手法として登場した。
本稿では,グローバルスコアリング機構を用いたKVキャッシュ消去手法であるG-KVを提案する。
論文 参考訳(メタデータ) (2025-11-29T14:21:33Z) - KVComm: Enabling Efficient LLM Communication through Selective KV Sharing [5.08081184831007]
大規模言語モデル(LLM)は、効果的なモデル間通信が不可欠であるマルチエージェントシステムにおいて、ますます多くデプロイされている。
我々は,KVペアの選択的共有により,LLM間の効率的な通信を可能にする新しいフレームワークであるKVCommを提案する。
本研究は,KVペアがLLM間通信に有効な媒体となる可能性を強調し,スケーラブルで効率的なマルチエージェントシステムを実現することを目的とした。
論文 参考訳(メタデータ) (2025-10-02T16:01:54Z) - Value-Guided KV Compression for LLMs via Approximated CUR Decomposition [24.262712463465665]
CurDKVは、CUR行列分解から計算したレバレッジスコアに基づいてキーと値を選択する、新しい、値中心のKV圧縮手法である。
我々のアプローチは、注意出力$softmax(QKT)V$の支配的部分空間を近似し、保持されたトークンがモデルの予測挙動を最善に維持することを保証する。
論文 参考訳(メタデータ) (2025-09-18T15:04:06Z) - KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。
デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。
キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文 参考訳(メタデータ) (2025-07-15T12:52:12Z) - Cache Me If You Can: How Many KVs Do You Need for Effective Long-Context LMs? [79.58770714228983]
言語モデルは、書籍要約のようなタスクに対して、ますます長いコンテキストを扱う。
これによりキーバリュー(KV)キャッシュのメモリコストが増大する。
以前の多くの研究でKVをメモリから外す方法が提案されているが、そのアプローチは好ましい設定に適合している。
KVフットプリント*は、記憶中のKVエントリの量と寿命の両方を考慮し、統一された計量として提案する。
論文 参考訳(メタデータ) (2025-06-20T16:21:12Z) - FlowKV: Enhancing Multi-Turn Conversational Coherence in LLMs via Isolated Key-Value Cache Management [48.904743679691414]
FlowKVはKVキャッシュ管理のための新しいマルチターン分離機構である。
蓄積された圧縮KVキャッシュを過去のターンから保存する。
古い文脈の再圧縮を防ぎ、破滅的な忘れを和らげる。
論文 参考訳(メタデータ) (2025-05-21T10:20:46Z) - NACL: A General and Effective KV Cache Eviction Framework for LLMs at Inference Time [44.89402186438295]
大規模言語モデル(LLM)は、AIアプリケーションの革新的な急増に火をつけ、拡張されたコンテキストウィンドウを備えたエキサイティングな可能性の新たな時代を告げた。
しかし、これらのモデルのホスティングは、主に長期のコンテキストモデリングを含むKVキャッシュの広範なメモリ消費のため、コストを抑えることができる。
我々は,符号化フェーズにおける単一操作において,より最適かつ効率的な消去を実現する,長文KVキャッシュ消去のための一般的なフレームワークであるNACLを提案する。
論文 参考訳(メタデータ) (2024-08-07T10:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。