論文の概要: MA-CoNav: A Master-Slave Multi-Agent Framework with Hierarchical Collaboration and Dual-Level Reflection for Long-Horizon Embodied VLN
- arxiv url: http://arxiv.org/abs/2603.03024v1
- Date: Tue, 03 Mar 2026 14:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.831696
- Title: MA-CoNav: A Master-Slave Multi-Agent Framework with Hierarchical Collaboration and Dual-Level Reflection for Long-Horizon Embodied VLN
- Title(参考訳): MA-CoNav: 階層的コラボレーションとデュアルレベルリフレクションを併用したマスタスレーブマルチエージェントフレームワーク
- Authors: Ling Luo, Qianqian Bai,
- Abstract要約: Vision-Language Navigation (VLN) は、ロボットが不慣れな環境で長距離ナビゲーションを行う能力を高めることを目的としている。
本稿では,マルチエージェント協調ナビゲーションフレームワークMA-CoNavを提案する。
- 参考スコア(独自算出の注目度): 1.7508558850131373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Navigation (VLN) aims to empower robots with the ability to perform long-horizon navigation in unfamiliar environments based on complex linguistic instructions. Its success critically hinges on establishing an efficient ``language-understanding -- visual-perception -- embodied-execution'' closed loop. Existing methods often suffer from perceptual distortion and decision drift in complex, long-distance tasks due to the cognitive overload of a single agent. Inspired by distributed cognition theory, this paper proposes MA-CoNav, a Multi-Agent Collaborative Navigation framework. This framework adopts a ``Master-Slave'' hierarchical agent collaboration architecture, decoupling and distributing the perception, planning, execution, and memory functions required for navigation tasks to specialized agents. Specifically, the Master Agent is responsible for global orchestration, while the Subordinate Agent group collaborates through a clear division of labor: an Observation Agent generates environment descriptions, a Planning Agent performs task decomposition and dynamic verification, an Execution Agent handles simultaneous mapping and action, and a Memory Agent manages structured experiences. Furthermore, the framework introduces a ``Local-Global'' dual-stage reflection mechanism to dynamically optimize the entire navigation pipeline. Empirical experiments were conducted using a real-world indoor dataset collected by a Limo Pro robot, with no scene-specific fine-tuning performed on the models throughout the process. The results demonstrate that MA-CoNav comprehensively outperforms existing mainstream VLN methods across multiple metrics.
- Abstract(参考訳): Vision-Language Navigation (VLN) は、複雑な言語的指示に基づいて、未知の環境で長距離ナビゲーションを行う能力をロボットに与えることを目的としている。
その成功は、効率的な‘言語-理解 -- 視覚-知覚 -- のクローズドループの確立に重要な意味を持つ。
既存の方法は、単一のエージェントの認知的過負荷による複雑な長距離タスクにおいて、知覚の歪みや決定のドリフトに悩まされることが多い。
分散認知理論に着想を得て,マルチエージェント協調ナビゲーションフレームワークMA-CoNavを提案する。
このフレームワークは ``Master-Slave'' の階層的なエージェントコラボレーションアーキテクチャを採用し、特別なエージェントへのナビゲーションタスクに必要な認識、計画、実行、メモリ機能の分離と分散を行っている。
観察エージェントは環境記述を生成し、計画エージェントはタスク分解と動的検証を行い、実行エージェントは同時マッピングとアクションを処理し、メモリエージェントは構造化された経験を管理する。
さらに、このフレームワークは、ナビゲーションパイプライン全体を動的に最適化する ``Local-Global'' のデュアルステージリフレクションメカニズムを導入している。
実験は、Limo Proロボットが収集した実際の屋内データセットを用いて行われた。
その結果、MA-CoNavは既存の主流VLNメソッドを複数のメトリクスで総合的に上回っていることがわかった。
関連論文リスト
- Experience-Driven Multi-Agent Systems Are Training-free Context-aware Earth Observers [27.817039954088315]
ツールレベルの専門知識を学習するための自己進化型マルチエージェントシステムである textbfGeoEvolver を紹介する。
GeoEvolverはエンドツーエンドのタスクの成功を継続的に改善し、複数のバックボーンで平均12%向上することを示す。
論文 参考訳(メタデータ) (2026-01-30T15:11:07Z) - Designing Domain-Specific Agents via Hierarchical Task Abstraction Mechanism [61.01709143437043]
階層型タスク抽象化機構(HTAM)を中心とした新しいエージェント設計フレームワークを提案する。
具体的には、HTAMは、社会的役割のエミュレーションを超えて、代わりに、複数のエージェントシステムを、あるドメインの固有のタスク依存グラフを反映する論理階層に構造化する。
我々は、複雑な地理空間解析に適したマルチエージェントシステムであるEarthAgentとして、このフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2025-11-21T12:25:47Z) - AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - AgentOrchestra: Orchestrating Hierarchical Multi-Agent Intelligence with the Tool-Environment-Agent(TEA) Protocol [22.406849007798858]
本稿では,環境,エージェント,ツールを統一システムに統合するツール-環境-エージェントプロトコルを提案する。
本稿では,複雑な目的を分解し,特殊エージェントをコーディネートする中央計画エージェントを備えた階層型マルチエージェントフレームワークであるAgensOrchestraを紹介する。
論文 参考訳(メタデータ) (2025-06-14T13:45:37Z) - Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System [8.88014241557266]
不均一なマルチロボットシステムは、協調的なハイブリッド協調を必要とする複雑なタスクにおいて大きな可能性を示す。
静的またはタスク固有のモデルに依存する既存のメソッドは、様々なタスクや動的環境にまたがる一般化性に欠けることが多い。
本稿では,大規模言語モデル (LLM) と微調整型視覚言語モデル (VLM) を統合した階層型マルチモーダルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T13:27:41Z) - OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis [70.39500621448383]
オープンワールドのモバイル操作タスクは、オープンエンドの命令や環境への一般化が必要なため、依然として課題である。
本稿では,多視点のシーンフレームとエージェント状態を維持した新しいマルチモーダルエージェントアーキテクチャを提案する。
我々は,グローバルなシーン理解,ロボットの状態追跡,マルチモーダルアクション生成を統一モデルで実現した,モバイルマニピュレータのための基礎モデルであるOWMM-VLMについて紹介する。
論文 参考訳(メタデータ) (2025-06-04T17:57:44Z) - Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration [63.90193684394165]
マルチエージェント・クロスタスク体験学習(MAEL)は,LSM駆動型エージェントに明示的なクロスタスク学習と経験蓄積を付与する新しいフレームワークである。
経験的学習フェーズでは、タスク解決ワークフローの各ステップの品質を定量化し、その結果の報酬を記憶する。
推論中、エージェントは、各推論ステップの有効性を高めるために、いくつかの例として、高頻度のタスク関連体験を検索する。
論文 参考訳(メタデータ) (2025-05-29T07:24:37Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - AppAgent v2: Advanced Agent for Flexible Mobile Interactions [57.98933460388985]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。
本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文 参考訳(メタデータ) (2024-08-05T06:31:39Z) - Hierarchical Auto-Organizing System for Open-Ended Multi-Agent Navigation [12.753472502707153]
Minecraftにおけるマルチエージェント組織のための階層的自動組織ナビゲーションシステムを設計する。
Minecraft環境では、探索や探索を含む一連のナビゲーションタスクも設計しています。
私たちは、具体的AIの境界を押し進め、より人間的な組織構造へと移行する、具体的組織の開発を目指しています。
論文 参考訳(メタデータ) (2024-03-13T06:22:17Z) - Breaking Down the Task: A Unit-Grained Hybrid Training Framework for
Vision and Language Decision Making [19.87916700767421]
視覚言語意思決定(VLDM)は、難しいマルチモーダルタスクである。
環境の観点からは、タスクエピソードはきめ細かいテキストユニットに分けることができる。
本研究では,環境中を活発に探索し,露光バイアスを低減できる新しいハイブリッド学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-16T11:54:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。