論文の概要: ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation
- arxiv url: http://arxiv.org/abs/2602.15864v1
- Date: Mon, 26 Jan 2026 19:09:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.668574
- Title: ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation
- Title(参考訳): ReasonNavi: ゼロショットエボダイドナビゲーションのためのヒューマンインスパイアされたグローバルマップ推論
- Authors: Yuzhuo Ao, Anbang Wang, Yu-Wing Tai, Chi-Keung Tang,
- Abstract要約: 身体的エージェントは、主に部分的な自我中心の観測に依存するため、効率的なナビゲーションに苦しむことが多い。
本稿では,マルチモーダル大規模言語モデル(MLLM)と決定論的プランナを結合することにより,この理由に基づくパラダイムを運用する,人間にインスパイアされたフレームワークであるReasonNaviを紹介する。
- 参考スコア(独自算出の注目度): 53.95797153529148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied agents often struggle with efficient navigation because they rely primarily on partial egocentric observations, which restrict global foresight and lead to inefficient exploration. In contrast, humans plan using maps: we reason globally first, then act locally. We introduce ReasonNavi, a human-inspired framework that operationalizes this reason-then-act paradigm by coupling Multimodal Large Language Models (MLLMs) with deterministic planners. ReasonNavi converts a top-down map into a discrete reasoning space by room segmentation and candidate target nodes sampling. An MLLM is then queried in a multi-stage process to identify the candidate most consistent with the instruction (object, image, or text goal), effectively leveraging the model's semantic reasoning ability while sidestepping its weakness in continuous coordinate prediction. The selected waypoint is grounded into executable trajectories using a deterministic action planner over an online-built occupancy map, while pretrained object detectors and segmenters ensure robust recognition at the goal. This yields a unified zero-shot navigation framework that requires no MLLM fine-tuning, circumvents the brittleness of RL-based policies and scales naturally with foundation model improvements. Across three navigation tasks, ReasonNavi consistently outperforms prior methods that demand extensive training or heavy scene modeling, offering a scalable, interpretable, and globally grounded solution to embodied navigation. Project page: https://reasonnavi.github.io/
- Abstract(参考訳): 身体的エージェントは、主に部分的な自我中心の観測に依存しており、世界の視線を制限し、非効率な探索につながるため、効率的な航海に苦しむことが多い。
対照的に、人類は地図を使って計画している。
本稿では,マルチモーダル大規模言語モデル(MLLM)と決定論的プランナを結合することにより,この理由に基づくパラダイムを運用する,人間にインスパイアされたフレームワークであるReasonNaviを紹介する。
ReasonNaviは、トップダウンマップを部屋のセグメンテーションと候補ターゲットノードサンプリングによって離散的な推論空間に変換する。
MLLMはマルチステージプロセスでクエリされ、命令(オブジェクト、イメージ、テキストゴール)と最も整合した候補を識別し、モデルのセマンティック推論能力を効果的に活用し、連続座標予測における弱点を脇取りする。
選択されたウェイポイントは、オンライン構築された占有マップ上の決定論的アクションプランナーを使用して実行可能な軌道に接し、事前訓練された物体検出器とセグメンタは目標に対して堅牢な認識を保証する。
これにより、MLLMの微調整を必要とせず、RLベースのポリシーの脆さを回避し、基礎モデルの改善とともに自然にスケールする、統合されたゼロショットナビゲーションフレームワークが得られる。
3つのナビゲーションタスク全体で、ReasonNaviは広範囲なトレーニングや重いシーンモデリングを必要とする従来の手法を一貫して上回り、スケーラブルで解釈可能なグローバルなナビゲーションソリューションを提供する。
プロジェクトページ: https://reasonnavi.github.io/
関連論文リスト
- FeudalNav: A Simple Framework for Visual Navigation [7.136542835931238]
ナビゲーション決定過程を複数のレベルに分解する階層的なフレームワークを開発する。
提案手法は,簡単な経路選択ネットワークを通じてサブゴールを選択することを学習する。
トレーニングや推論にオドメトリを使わずに,Habitat AI環境におけるSOTA手法のスイートによる競合結果を示す。
論文 参考訳(メタデータ) (2026-01-15T22:10:29Z) - FOM-Nav: Frontier-Object Maps for Object Goal Navigation [65.76906445210112]
FOM-Navはフロンティアオブジェクトマップと視覚言語モデルによる探索効率を高めるフレームワークである。
FOM-Navをトレーニングするために,実環境から大規模ナビゲーションデータセットを自動構築する。
FOM-NavはMP3DとHM3Dのベンチマーク、特にナビゲーション効率の指標SPLで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-30T18:16:09Z) - DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation [73.80968452950854]
Vision-Language Navigation in Continuous Environments (VLN-CE) は、エージェントが自由形式の3D空間を通して自然言語の指示に従う必要がある。
既存のVLN-CEアプローチは通常、2段階のウェイポイント計画フレームワークを使用する。
本稿では,エンドツーエンド最適化VLN-CEポリシとしてDAgger Diffusion Navigation (DifNav)を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:51:43Z) - TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。
MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文 参考訳(メタデータ) (2024-11-25T14:27:55Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large
Language Models [17.495162643127003]
我々は,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにするために,NavGPTを導入した。
NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論する。
本研究では,NavGPTが経路に沿った観察や行動から高品質なナビゲーション命令を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-26T14:41:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。