Fugu-MT 論文翻訳(概要): Global Commander and Local Operative: A Dual-Agent Framework for Scene Navigation

論文の概要: Global Commander and Local Operative: A Dual-Agent Framework for Scene Navigation

arxiv url: http://arxiv.org/abs/2602.18941v1
Date: Sat, 21 Feb 2026 19:19:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.407533
Title: Global Commander and Local Operative: A Dual-Agent Framework for Scene Navigation
Title（参考訳）: グローバルコマンドとローカル操作: シーンナビゲーションのためのデュアルエージェントフレームワーク
Authors: Kaiming Jin, Yuefan Wu, Shengqiong Wu, Bobo Li, Shuicheng Yan, Tat-Seng Chua,
Abstract要約: 視覚と言語シーンナビゲーションは、人間のAIを具現化する基本的な能力である。 DACoは,グローバルな議論を現地の基盤から切り離す,計画的な非結合型アーキテクチャである。グローバルな推論を局所的な行動から遠ざけることで、DACoは認知的過負荷を軽減し、長期的安定性を向上させる。
参考スコア（独自算出の注目度）: 96.88162755522342
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Vision-and-Language Scene navigation is a fundamental capability for embodied human-AI collaboration, requiring agents to follow natural language instructions to execute coherent action sequences in complex environments. Existing approaches either rely on multiple agents, incurring high coordination and resource costs, or adopt a single-agent paradigm, which overloads the agent with both global planning and local perception, often leading to degraded reasoning and instruction drift in long-horizon settings. To address these issues, we introduce DACo, a planning-grounding decoupled architecture that disentangles global deliberation from local grounding. Concretely, it employs a Global Commander for high-level strategic planning and a Local Operative for egocentric observing and fine-grained execution. By disentangling global reasoning from local action, DACo alleviates cognitive overload and improves long-horizon stability. The framework further integrates dynamic subgoal planning and adaptive replanning to enable structured and resilient navigation. Extensive evaluations on R2R, REVERIE, and R4R demonstrate that DACo achieves 4.9%, 6.5%, 5.4% absolute improvements over the best-performing baselines in zero-shot settings, and generalizes effectively across both closed-source (e.g., GPT-4o) and open-source (e.g., Qwen-VL Series) backbones. DACo provides a principled and extensible paradigm for robust long-horizon navigation. Project page: https://github.com/ChocoWu/DACo
Abstract（参考訳）: Vision-and-Language Scene Navigationは人間とAIのコラボレーションを具体化するための基本的な機能であり、エージェントは複雑な環境で一貫性のあるアクションシーケンスを実行するために自然言語命令に従う必要がある。既存のアプローチは、複数のエージェントに依存するか、高い調整とリソースコストを発生させるか、あるいは単一のエージェントパラダイムを採用する。これらの問題に対処するために,我々は,グローバルな議論を現地の基盤から切り離す計画的非結合アーキテクチャであるDACoを紹介した。具体的には、Global Commanderを高レベルの戦略的計画に、Local Operativeをエゴセントリックな観察ときめ細かい実行に採用している。グローバルな推論を局所的な行動から遠ざけることで、DACoは認知的過負荷を軽減し、長期的安定性を向上させる。このフレームワークはさらに動的サブゴール計画と適応的計画を統合し、構造化されレジリエントなナビゲーションを可能にする。 R2R、REVERIE、R4Rの大規模な評価では、DACoはゼロショット設定における最高のパフォーマンスベースラインに対して4.9%、6.5%、5.4%の絶対的な改善を達成し、クローズドソース(例:GPT-4o)とオープンソース(例:Qwen-VL Series)の両方で効果的に一般化している。 DACoは、堅牢な長距離航法のための原則的で拡張可能なパラダイムを提供する。プロジェクトページ:https://github.com/ChocoWu/DACo

関連論文リスト

MA-CoNav: A Master-Slave Multi-Agent Framework with Hierarchical Collaboration and Dual-Level Reflection for Long-Horizon Embodied VLN [1.7508558850131373]
Vision-Language Navigation (VLN) は、ロボットが不慣れな環境で長距離ナビゲーションを行う能力を高めることを目的としている。本稿では,マルチエージェント協調ナビゲーションフレームワークMA-CoNavを提案する。
論文参考訳（メタデータ） (2026-03-03T14:16:02Z)
WebAnchor: Anchoring Agent Planning to Stabilize Long-Horizon Web Reasoning [82.12501258760814]
大規模言語モデル(LLM)ベースのエージェントは、Web情報検索において強力な能力を示している。 Plan anchorは、長期にわたるWeb推論タスクにおいて、最初の推論ステップが下流の動作に不均等に影響を与えている場所です。計画と実行を分離する2段階のRLフレームワークであるAnchor-GRPOを提案する。
論文参考訳（メタデータ） (2026-01-06T16:36:40Z)
Hybrid Motion Planning with Deep Reinforcement Learning for Mobile Robot Navigation [0.0]
深部強化学習(HMP-DRL)によるハイブリッド運動計画状態空間と報酬関数の両方に符号化されたチェックポイントのシーケンスを通じて、局所DRLポリシーに統合されたパスを生成するグラフベースのグローバルプランナを提案する。社会的コンプライアンスを確保するため、地域プランナーは、周辺エージェントのセマンティックタイプに基づいて、安全マージンと罰則を動的に調整するエンティティ対応報酬構造を採用する。
論文参考訳（メタデータ） (2025-12-31T05:58:57Z)
Hi-Agent: Hierarchical Vision-Language Agents for Mobile Device Control [72.43808515668947]
モバイル制御のためのトレーニング可能な階層型視覚言語エージェントであるHi-Agentを紹介する。 Hi-Agentは高レベルの推論モデルと、共同最適化された低レベルのアクションモデルを備えている。 Hi-Agentは、Android-in-the-Wild(AitW)ベンチマークで、新しいState-Of-The-Art(SOTA)87.9%タスクの成功率を達成した。
論文参考訳（メタデータ） (2025-10-16T07:38:21Z)
DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation [73.80968452950854]
Vision-Language Navigation in Continuous Environments (VLN-CE) は、エージェントが自由形式の3D空間を通して自然言語の指示に従う必要がある。既存のVLN-CEアプローチは通常、2段階のウェイポイント計画フレームワークを使用する。本稿では,エンドツーエンド最適化VLN-CEポリシとしてDAgger Diffusion Navigation (DifNav)を提案する。
論文参考訳（メタデータ） (2025-08-13T02:51:43Z)
PilotRL: Training Language Model Agents via Global Planning-Guided Progressive Reinforcement Learning [19.480628850056522]
大規模言語モデル(LLM)はエージェント指向タスクの処理において顕著な進歩を見せている。現在のアプローチは主に教師付き微調整に依存しており、しばしばモデルが確立されたタスク完了軌跡を記憶させる。適応的グローバルプランベースエージェントパラダイムであるAdaPlanを導入する。
論文参考訳（メタデータ） (2025-08-01T06:17:11Z)
NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文参考訳（メタデータ） (2024-03-12T07:27:02Z)
Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2022-02-23T19:06:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。