Fugu-MT 論文翻訳(概要): Stop Wandering: Efficient Vision-Language Navigation via Metacognitive Reasoning

論文の概要: Stop Wandering: Efficient Vision-Language Navigation via Metacognitive Reasoning

arxiv url: http://arxiv.org/abs/2604.02318v1
Date: Thu, 02 Apr 2026 17:58:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-03 14:21:10.985517
Title: Stop Wandering: Efficient Vision-Language Navigation via Metacognitive Reasoning
Title（参考訳）: メタ認知推論による視覚言語ナビゲーションの効率化
Authors: Xueying Li, Feng Lyu, Hao Wu, Mingliu Liu, Jia-Nan Liu, Guozi Liu,
Abstract要約: トレーニングフリーのビジョンランゲージナビゲーション(VLN)エージェントは、指示に従って3D環境を探索することができる。既存のアプローチは、強欲なフロンティア選択と受動的空間記憶に依存している。本稿では,空間記憶,履歴認識計画,反射補正を統合したメタ認知ナビゲーションエージェントMetaNavを提案する。
参考スコア（独自算出の注目度）: 12.880792990007244
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training-free Vision-Language Navigation (VLN) agents powered by foundation models can follow instructions and explore 3D environments. However, existing approaches rely on greedy frontier selection and passive spatial memory, leading to inefficient behaviors such as local oscillation and redundant revisiting. We argue that this stems from a lack of metacognitive capabilities: the agent cannot monitor its exploration progress, diagnose strategy failures, or adapt accordingly. To address this, we propose MetaNav, a metacognitive navigation agent integrating spatial memory, history-aware planning, and reflective correction. Spatial memory builds a persistent 3D semantic map. History-aware planning penalizes revisiting to improve efficiency. Reflective correction detects stagnation and uses an LLM to generate corrective rules that guide future frontier selection. Experiments on GOAT-Bench, HM3D-OVON, and A-EQA show that MetaNav achieves state-of-the-art performance while reducing VLM queries by 20.7%, demonstrating that metacognitive reasoning significantly improves robustness and efficiency.
Abstract（参考訳）: 基礎モデルを利用したトレーニングフリーのビジョンランゲージナビゲーション(VLN)エージェントは、指示に従って3D環境を探索することができる。しかし、既存のアプローチは、強欲なフロンティア選択と受動的空間記憶に依存しており、局所的な振動や冗長な再考のような非効率な振る舞いにつながっている。エージェントは探索の進捗を監視したり、戦略の失敗を診断したり、それに応じて適応することができない。そこで我々は,空間記憶,履歴認識計画,反射補正を統合したメタ認知ナビゲーションエージェントMetaNavを提案する。空間記憶は永続的な3Dセマンティックマップを構築する。履歴対応プランニングは、効率を改善するために再考を罰する。反射補正は停滞を検出し、LLMを使用して将来のフロンティア選択を導く修正規則を生成する。 GOAT-Bench、HM3D-OVON、A-EQAの実験により、MetaNavはVLMクエリを20.7%削減しながら最先端のパフォーマンスを実現し、メタ認知的推論が堅牢性と効率を大幅に向上することを示した。

論文の概要: Stop Wandering: Efficient Vision-Language Navigation via Metacognitive Reasoning

関連論文リスト