論文の概要: Think, Remember, Navigate: Zero-Shot Object-Goal Navigation with VLM-Powered Reasoning
- arxiv url: http://arxiv.org/abs/2511.08942v1
- Date: Thu, 13 Nov 2025 01:20:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.318309
- Title: Think, Remember, Navigate: Zero-Shot Object-Goal Navigation with VLM-Powered Reasoning
- Title(参考訳): VLMを利用したゼロショットの目標ナビゲーション
- Authors: Mobin Habibpour, Fatemeh Afghah,
- Abstract要約: ビジョンランゲージモデル(VLM)は、ロボットナビゲーションを変換するために設定されている。
我々のフレームワークは、その文脈理解を活用してフロンティアベースの探索エージェントを誘導する高レベルのプランニングをVLMにアウトソースする。
HM3D、Gibson、MP3Dのような挑戦的なベンチマークでテストすると、この手法は例外的に直接的かつ論理的な軌道を生成する。
- 参考スコア(独自算出の注目度): 8.316876835702525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Vision-Language Models (VLMs) are set to transform robotic navigation, existing methods often underutilize their reasoning capabilities. To unlock the full potential of VLMs in robotics, we shift their role from passive observers to active strategists in the navigation process. Our framework outsources high-level planning to a VLM, which leverages its contextual understanding to guide a frontier-based exploration agent. This intelligent guidance is achieved through a trio of techniques: structured chain-of-thought prompting that elicits logical, step-by-step reasoning; dynamic inclusion of the agent's recent action history to prevent getting stuck in loops; and a novel capability that enables the VLM to interpret top-down obstacle maps alongside first-person views, thereby enhancing spatial awareness. When tested on challenging benchmarks like HM3D, Gibson, and MP3D, this method produces exceptionally direct and logical trajectories, marking a substantial improvement in navigation efficiency over existing approaches and charting a path toward more capable embodied agents.
- Abstract(参考訳): Vision-Language Models (VLM) はロボットナビゲーションを変換するために設定されているが、既存の手法では推論能力が不足していることが多い。
ロボット工学におけるVLMの潜在能力を最大限に活用するためには、受動的観測者からナビゲーションプロセスにおけるアクティブストラテジストへと役割を移す。
我々のフレームワークは、その文脈理解を活用してフロンティアベースの探索エージェントを誘導する高レベルのプランニングをVLMにアウトソースする。
このインテリジェントなガイダンスは、論理的、ステップバイステップの推論を誘発する構造化チェーン・オブ・シント(Structured chain-of-thinkt)、3つのテクニックによって達成される。
HM3D、Gibson、MP3Dといった挑戦的なベンチマークでテストすると、この手法は例外なく直接的かつ論理的な軌道を導き、既存のアプローチよりもナビゲーション効率が大幅に向上し、より有能なエンボディエージェントへの道をグラフ化している。
関連論文リスト
- General-Purpose Robotic Navigation via LVLM-Orchestrated Perception, Reasoning, and Acting [5.291702442384798]
Agentic Robotic Navigation Architecture (ARNA)は、LVLMベースのエージェントに知覚、推論、ナビゲーションツールのライブラリを装備する汎用フレームワークである。
実行時にエージェントは、現代のロボットスタックから引き出されたタスク固有のナビゲーションツールを自律的に定義し、実行します。
ARNAは最先端のEQA特異的アプローチより優れている。
論文 参考訳(メタデータ) (2025-06-20T20:06:14Z) - History-Augmented Vision-Language Models for Frontier-Based Zero-Shot Object Navigation [5.343932820859596]
本稿では、動的履歴認識プロンプトの利用を先駆する新しいゼロショットObjectNavフレームワークを提案する。
私たちの中心となるイノベーションは、VLMにアクション履歴コンテキストを提供し、ナビゲーションアクションのセマンティックガイダンススコアを生成することです。
また、検出対象に対する最終アプローチを洗練するためのVLM支援のウェイポイント生成機構も導入する。
論文 参考訳(メタデータ) (2025-06-19T21:50:16Z) - DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation [55.888688171010365]
DORAEMONは、人間のナビゲーション機能を模倣したVentralとDorsal Streamsで構成される、認知にインスパイアされたフレームワークである。
我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の測定値の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-28T04:46:13Z) - Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning [69.5875073447454]
本稿では,大規模言語モデル(LLM)によって強化された動作エージェントを,動的・乱雑な環境における自律的なナビゲーションに向けて前進させる。
トレーニング不要なフレームワークは、マルチエージェント調整、クローズドループ計画、動的障害物回避を、リトレーニングや微調整なしでサポートしています。
論文 参考訳(メタデータ) (2025-03-10T13:39:09Z) - NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [24.689242976554482]
慣れ親しんだ環境をナビゲートすることは、家庭用ロボットにとって大きな課題となる。
既存の強化学習手法は、直接新しい環境に移行することはできない。
我々は、事前学習された基礎モデルの論理知識と一般化能力をゼロショットナビゲーションに転送しようと試みる。
論文 参考訳(メタデータ) (2025-02-19T17:27:47Z) - Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs [95.8010627763483]
モビリティVLAは、環境理解と長文VLMの常識推論能力を組み合わせた、階層的なビジョン・ランゲージ・アクション(VLA)ナビゲーションポリシーである。
従来未解決であったマルチモーダル命令に対して,モビリティVLAはエンドツーエンドの成功率が高いことを示す。
論文 参考訳(メタデータ) (2024-07-10T15:49:07Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。