論文の概要: Cross-Modal Memory Compression for Efficient Multi-Agent Debate
- arxiv url: http://arxiv.org/abs/2602.00454v1
- Date: Sat, 31 Jan 2026 02:02:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.193743
- Title: Cross-Modal Memory Compression for Efficient Multi-Agent Debate
- Title(参考訳): 効率的なマルチエージェント・ディベートのためのクロスモーダルメモリ圧縮
- Authors: Jing Wu, Yue Sun, Tianpei Xie, Suiyao Chen, Jingyuan Bao, Yaopengxiao Xu, Gaoyuan Du, Inseok Heo, Alexander Gutfraind, Xin Wang,
- Abstract要約: マルチエージェントの議論は推論の質を改善し、幻覚を減少させるが、議論のラウンドやエージェント数の増加とともに急速に増大する。
DebateOCRは、長いテキストの議論トレースをコンパクトな画像表現に置き換えるクロスモーダル圧縮フレームワークである。
この設計では、一般に数万から数十万のトークンにまたがる履歴を圧縮し、入力トークンを92%以上削減し、計算コストを大幅に削減し、推論を高速化する。
- 参考スコア(独自算出の注目度): 46.000284867049565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent debate can improve reasoning quality and reduce hallucinations, but it incurs rapidly growing context as debate rounds and agent count increase. Retaining full textual histories leads to token usage that can exceed context limits and often requires repeated summarization, adding overhead and compounding information loss. We introduce DebateOCR, a cross-modal compression framework that replaces long textual debate traces with compact image representations, which are then consumed through a dedicated vision encoder to condition subsequent rounds. This design compresses histories that commonly span tens to hundreds of thousands of tokens, cutting input tokens by more than 92% and yielding substantially lower compute cost and faster inference across multiple benchmarks. We further provide a theoretical perspective showing that diversity across agents supports recovery of omitted information: although any single compressed history may discard details, aggregating multiple agents' compressed views allows the collective representation to approach the information bottleneck with exponentially high probability.
- Abstract(参考訳): マルチエージェントの議論は推論の品質を改善し、幻覚を減少させるが、議論のラウンドやエージェント数の増加とともに急速に増大する。
完全なテキスト履歴を保持することは、コンテキスト制限を超えたトークンの使用につながる。
DebateOCRは、長いテキストの議論トレースをコンパクトな画像表現に置き換えるクロスモーダル圧縮フレームワークで、後続のラウンドを条件付けるために専用の視覚エンコーダを介して消費される。
この設計では、一般に数十から数十万のトークンにまたがる履歴を圧縮し、入力トークンを92%以上削減し、計算コストを大幅に削減し、複数のベンチマークで推論を高速化する。
さらに、エージェント間の多様性が省略された情報の回復をサポートすることを示す理論的な視点を示す: 単一の圧縮された履歴は詳細を破棄する可能性があるが、複数のエージェントの圧縮されたビューを集約することで、集団表現が指数的に高い確率で情報のボトルネックに近づくことができる。
関連論文リスト
- MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning [36.52465672754168]
本稿では,コンテキスト予算の厳しい長期推論を改善するマルチモーダルメモリエージェントであるMemOCRを紹介する。
MemOCRは、視覚的レイアウトを通じて適応的な情報密度でメモリ空間を割り当てる。
我々は,多種多様な圧縮レベルにエージェントを露出する予算対応目標の下で,強化学習でMemOCRを訓練する。
論文 参考訳(メタデータ) (2026-01-29T09:47:17Z) - TS-Debate: Multimodal Collaborative Debate for Zero-Shot Time Series Reasoning [44.59910717749994]
我々は、ゼロショット時系列推論のためのモダリティに特化して協調的なマルチエージェント討論フレームワークTS-Debateを提案する。
TS-Debateは、明示的なドメイン知識の推論に先行するテキストコンテキスト、視覚パターン、数値信号に専用の専門家エージェントを割り当てる。
レビューエージェントは、軽量コード実行と数値的なルックアップをサポートする検証-衝突-校正機構を使用してエージェントのクレームを評価する。
論文 参考訳(メタデータ) (2026-01-27T03:29:22Z) - Controlling Multimodal Conversational Agents with Coverage-Enhanced Latent Actions [62.02112656288921]
強化学習(RL)は、様々な人間とAIの相互作用シナリオにMCAを適用するために広く研究されている。
代わりにRLファインチューニングのためのコンパクト潜在作用空間を学習する。
我々は、ペア化された画像テキストデータとテキストのみのデータの両方を活用して、潜在アクション空間を構築します。
論文 参考訳(メタデータ) (2026-01-12T13:13:24Z) - AgentOCR: Reimagining Agent History via Optical Self-Compression [25.87457777208574]
本稿では,視覚トークンの優れた情報密度を利用するフレームワークであるAgentOCRを紹介する。
履歴をハッシュ可能なセグメントに分解し、ビジュアルキャッシュを維持することで、AgentOCRは冗長な再レンダリングを取り除く。
以上の結果から,AgentOCRは95%以上のテキストベースのエージェント性能を保ちながら,トークン消費量を大幅に削減していることがわかった。
論文 参考訳(メタデータ) (2026-01-08T10:10:20Z) - VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs [82.72388893596555]
MLLM(Multimodal Large Language Models)は、計算とメモリのボトルネックに遭遇する。
従来のトークン圧縮技術は、重要な情報を破棄するリスクを負うルールによって制約されることが多い。
我々は,トークン圧縮をエンドツーエンドの学習可能な決定プロセスに再構成する軽量なプラグアンドプレイフレームワークとして,トークン圧縮を再構成する。
論文 参考訳(メタデータ) (2025-10-18T17:54:18Z) - Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - Compressed Chain of Thought: Efficient Reasoning Through Dense Representations [37.41699761967978]
CoT(Chain-of- Thought)デコーディングにより、言語モデルでは、デコーディングにおける高ジェネレーションレイテンシーを犠牲にして、推論性能を改善することができる。
最近の提案では、推論時に特別なトークンを参照して、余分な計算を可能にするコンテプショントークンの変種について検討している。
本稿では,CCoT(Compressed Chain-of-Thought)を提案する。
論文 参考訳(メタデータ) (2024-12-17T18:50:33Z) - QUITO-X: A New Perspective on Context Compression from the Information Bottleneck Theory [75.81394991657545]
問題をモデル化するために情報ボトルネック理論(IB)を導入する。
IBにおける相互情報に近似するクロスアテンションに基づく手法を提案する。
提案手法は,最先端技術と比較して25%の圧縮率向上を実現している。
論文 参考訳(メタデータ) (2024-08-20T02:44:45Z) - Prompt Compression and Contrastive Conditioning for Controllability and
Toxicity Reduction in Language Models [9.123636698143283]
言語モデルに使用するプロンプトを圧縮するアイデアについて検討する。
圧縮されたプロンプトは、元のプロンプトに関する実質的な量の情報を保持することができることを示す。
また、圧縮されたプロンプトは概ね構成的であり、生成したテキストの独立した側面を制御するために使用できることを示す。
論文 参考訳(メタデータ) (2022-10-06T18:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。