論文の概要: Stop Wandering: Efficient Vision-Language Navigation via Metacognitive Reasoning
- arxiv url: http://arxiv.org/abs/2604.02318v1
- Date: Thu, 02 Apr 2026 17:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.985517
- Title: Stop Wandering: Efficient Vision-Language Navigation via Metacognitive Reasoning
- Title(参考訳): メタ認知推論による視覚言語ナビゲーションの効率化
- Authors: Xueying Li, Feng Lyu, Hao Wu, Mingliu Liu, Jia-Nan Liu, Guozi Liu,
- Abstract要約: トレーニングフリーのビジョンランゲージナビゲーション(VLN)エージェントは、指示に従って3D環境を探索することができる。
既存のアプローチは、強欲なフロンティア選択と受動的空間記憶に依存している。
本稿では,空間記憶,履歴認識計画,反射補正を統合したメタ認知ナビゲーションエージェントMetaNavを提案する。
- 参考スコア(独自算出の注目度): 12.880792990007244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training-free Vision-Language Navigation (VLN) agents powered by foundation models can follow instructions and explore 3D environments. However, existing approaches rely on greedy frontier selection and passive spatial memory, leading to inefficient behaviors such as local oscillation and redundant revisiting. We argue that this stems from a lack of metacognitive capabilities: the agent cannot monitor its exploration progress, diagnose strategy failures, or adapt accordingly. To address this, we propose MetaNav, a metacognitive navigation agent integrating spatial memory, history-aware planning, and reflective correction. Spatial memory builds a persistent 3D semantic map. History-aware planning penalizes revisiting to improve efficiency. Reflective correction detects stagnation and uses an LLM to generate corrective rules that guide future frontier selection. Experiments on GOAT-Bench, HM3D-OVON, and A-EQA show that MetaNav achieves state-of-the-art performance while reducing VLM queries by 20.7%, demonstrating that metacognitive reasoning significantly improves robustness and efficiency.
- Abstract(参考訳): 基礎モデルを利用したトレーニングフリーのビジョンランゲージナビゲーション(VLN)エージェントは、指示に従って3D環境を探索することができる。
しかし、既存のアプローチは、強欲なフロンティア選択と受動的空間記憶に依存しており、局所的な振動や冗長な再考のような非効率な振る舞いにつながっている。
エージェントは探索の進捗を監視したり、戦略の失敗を診断したり、それに応じて適応することができない。
そこで我々は,空間記憶,履歴認識計画,反射補正を統合したメタ認知ナビゲーションエージェントMetaNavを提案する。
空間記憶は永続的な3Dセマンティックマップを構築する。
履歴対応プランニングは、効率を改善するために再考を罰する。
反射補正は停滞を検出し、LLMを使用して将来のフロンティア選択を導く修正規則を生成する。
GOAT-Bench、HM3D-OVON、A-EQAの実験により、MetaNavはVLMクエリを20.7%削減しながら最先端のパフォーマンスを実現し、メタ認知的推論が堅牢性と効率を大幅に向上することを示した。
関連論文リスト
- Think, Remember, Navigate: Zero-Shot Object-Goal Navigation with VLM-Powered Reasoning [8.316876835702525]
ビジョンランゲージモデル(VLM)は、ロボットナビゲーションを変換するために設定されている。
我々のフレームワークは、その文脈理解を活用してフロンティアベースの探索エージェントを誘導する高レベルのプランニングをVLMにアウトソースする。
HM3D、Gibson、MP3Dのような挑戦的なベンチマークでテストすると、この手法は例外的に直接的かつ論理的な軌道を生成する。
論文 参考訳(メタデータ) (2025-11-12T03:38:50Z) - DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation [55.888688171010365]
DORAEMONは、人間のナビゲーション機能を模倣したVentralとDorsal Streamsで構成される、認知にインスパイアされたフレームワークである。
我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の測定値の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-28T04:46:13Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。