論文の概要: Dual Latent Memory for Visual Multi-agent System
- arxiv url: http://arxiv.org/abs/2602.00471v1
- Date: Sat, 31 Jan 2026 02:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.207026
- Title: Dual Latent Memory for Visual Multi-agent System
- Title(参考訳): 視覚多エージェントシステムのためのデュアル潜時記憶
- Authors: Xinlei Yu, Chengming Xu, Zhangquan Chen, Bo Yin, Cheng Yang, Yongbo He, Yihao Hu, Jiangning Zhang, Cheng Tan, Xiaobin Hu, Shuicheng Yan,
- Abstract要約: Visual Multi-Agent Systems (VMAS)は、エージェント間のコラボレーションを通じて包括的な能力を強化することを約束する。
増量剤は、指数関数的にトークンコストを膨らませながら、しばしば性能を低下させる。
L$2$-VMASは,2つの潜在記憶を用いたエージェント間コラボレーションを実現する新しいモデルに依存しないフレームワークである。
- 参考スコア(独自算出の注目度): 69.29799381195592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Visual Multi-Agent Systems (VMAS) promise to enhance comprehensive abilities through inter-agent collaboration, empirical evidence reveals a counter-intuitive "scaling wall": increasing agent turns often degrades performance while exponentially inflating token costs. We attribute this failure to the information bottleneck inherent in text-centric communication, where converting perceptual and thinking trajectories into discrete natural language inevitably induces semantic loss. To this end, we propose L$^{2}$-VMAS, a novel model-agnostic framework that enables inter-agent collaboration with dual latent memories. Furthermore, we decouple the perception and thinking while dynamically synthesizing dual latent memories. Additionally, we introduce an entropy-driven proactive triggering that replaces passive information transmission with efficient, on-demand memory access. Extensive experiments among backbones, sizes, and multi-agent structures demonstrate that our method effectively breaks the "scaling wall" with superb scalability, improving average accuracy by 2.7-5.4% while reducing token usage by 21.3-44.8%. Codes: https://github.com/YU-deep/L2-VMAS.
- Abstract(参考訳): Visual Multi-Agent Systems (VMAS)は、エージェント間のコラボレーションを通じて包括的な能力を強化することを約束するが、実証的な証拠は、直感に反する「スケーリングウォール」を明らかにしている。
この失敗は、知覚と思考の軌跡を個別の自然言語に変換することによって、必然的に意味喪失を引き起こす、テキスト中心のコミュニケーションに固有の情報のボトルネックに起因する。
この目的のために,2つの潜在記憶を用いたエージェント間協調を可能にする新しいモデルに依存しないフレームワークであるL$^{2}$-VMASを提案する。
さらに,2つの潜在記憶を動的に合成しながら知覚と思考を分離する。
さらに、受動的情報伝送を効率よくオンデマンドなメモリアクセスに置き換えるエントロピー駆動のプロアクティブトリガーを導入する。
バックボーン,サイズ,マルチエージェント構造間の大規模な実験により,我々の手法は「スケーリング壁」を超拡張性で効果的に破壊し,平均精度を2.7~5.4%向上し,トークン使用率を21.3~44.8%削減することを示した。
コード:https://github.com/YU-deep/L2-VMAS。
関連論文リスト
- FadeMem: Biologically-Inspired Forgetting for Efficient Agent Memory [4.608947574766633]
本稿では,人間の認知効率を反映した能動的忘れ機構を組み込んだ,生物学的にインスパイアされたエージェントメモリアーキテクチャであるFadeMemを提案する。
マルチセッションチャット, LoCoMo, LTI-Benchの実験では, ストレージの45%削減により, 優れたマルチホップ推論と検索が可能となった。
論文 参考訳(メタデータ) (2026-01-26T16:12:54Z) - Agentic Learner with Grow-and-Refine Multimodal Semantic Memory [50.81667005063605]
ViLoMemは、コンパクトなスキーマベースのメモリを構築するデュアルストリームメモリフレームワークである。
視覚的障害パターンと論理的推論エラーを符号化し、MLLMが成功し失敗した経験から学ぶことを可能にする。
論文 参考訳(メタデータ) (2025-11-26T18:55:08Z) - ExplicitLM: Decoupling Knowledge from Parameters via Explicit Memory Banks [4.099810580680816]
大規模言語モデルは、暗黙の知識記憶による知識の安定性と解釈性の欠如に悩まされる。
トークンシーケンスとして可読性のある知識を格納する100万スケールの外部メモリバンクを備えた新しいアーキテクチャであるExplicitLMを提案する。
論文 参考訳(メタデータ) (2025-11-03T13:53:19Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - Perceive, Reflect and Understand Long Video: Progressive Multi-Granular Clue Exploration with Interactive Agents [60.095739427926524]
時間的およびスパースなタスク関連情報を特徴とするロングビデオは、AIシステムに重大な推論課題を生じさせる。
人間のプログレッシブな視覚認知にインスパイアされ、我々はCogniGPTを効率的で信頼性の高い長時間ビデオ理解のために提案する。
論文 参考訳(メタデータ) (2025-09-29T15:42:55Z) - Adversarial Activation Patching: A Framework for Detecting and Mitigating Emergent Deception in Safety-Aligned Transformers [0.0]
大規模言語モデル(LLM)は、安全のために整列し、しばしば突発的な騙し行動を示す。
本稿では,新しい機械的解釈可能性フレームワークである逆アクティベーションパッチについて紹介する。
のプロンプトからアクティベーションをソーシングすることで、脆弱性をシミュレートし、偽装率を定量化する。
論文 参考訳(メタデータ) (2025-07-12T21:29:49Z) - Which2comm: An Efficient Collaborative Perception Framework for 3D Object Detection [5.195291754828701]
協調認識は、リアルタイムのエージェント間の情報交換を可能にする。
実用シナリオにおける通信帯域幅の制限は、エージェント間データ転送量を制限する。
オブジェクトレベルのスパース機能を利用した新しいマルチエージェント3Dオブジェクト検出フレームワークであるH which2commを提案する。
論文 参考訳(メタデータ) (2025-03-21T14:24:07Z) - CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。