論文の概要: DRIVE-Nav: Directional Reasoning, Inspection, and Verification for Efficient Open-Vocabulary Navigation
- arxiv url: http://arxiv.org/abs/2603.28691v1
- Date: Mon, 30 Mar 2026 17:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.532277
- Title: DRIVE-Nav: Directional Reasoning, Inspection, and Verification for Efficient Open-Vocabulary Navigation
- Title(参考訳): DRIVE-Nav:効率的な開語彙ナビゲーションのための方向推論,検査,検証
- Authors: Maoguo Gao, Zejun Zhu, Zhiming Sun, Zhengwei Ma, Longze Yuan, Zhongjing Ma, Zhigang Gao, Jinhui Zhang, Suli Zou,
- Abstract要約: DRIVE-Navは永続的な方向の探索を組織する構造化されたフレームワークである。
冗長なリビジョンを削減し、パス効率を向上させる。
HM3D-OVON、HM3Dv2、MP3Dの実験は、全体的な性能と一貫した効率向上を示す。
- 参考スコア(独自算出の注目度): 3.249609824556708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-Vocabulary Object Navigation (OVON) requires an embodied agent to locate a language-specified target in unknown environments. Existing zero-shot methods often reason over dense frontier points under incomplete observations, causing unstable route selection, repeated revisits, and unnecessary action overhead. We present DRIVE-Nav, a structured framework that organizes exploration around persistent directions rather than raw frontiers. By inspecting encountered directions more completely and restricting subsequent decisions to still-relevant directions within a forward 240 degree view range, DRIVE-Nav reduces redundant revisits and improves path efficiency. The framework extracts and tracks directional candidates from weighted Fast Marching Method (FMM) paths, maintains representative views for semantic inspection, and combines vision-language-guided prompt enrichment with cross-frame verification to improve grounding reliability. Experiments on HM3D-OVON, HM3Dv2, and MP3D demonstrate strong overall performance and consistent efficiency gains. On HM3D-OVON, DRIVE-Nav achieves 50.2% SR and 32.6% SPL, improving the previous best method by 1.9% SR and 5.6% SPL. It also delivers the best SPL on HM3Dv2 and MP3D and transfers to a physical humanoid robot. Real-world deployment also demonstrates its effectiveness. Project page: https://coolmaoguo.github.io/drive-nav-page/
- Abstract(参考訳): Open-Vocabulary Object Navigation (OVON) は、未知の環境で言語仕様のターゲットを見つけるために、エンボディエージェントを必要とする。
既存のゼロショット法は、しばしば不完全な観測の下で密度の高いフロンティア点を越え、不安定な経路選択、繰り返しの修正、不必要な動作オーバーヘッドを引き起こす。
本稿では, 生のフロンティアではなく永続的な方向を探索する構造的枠組みであるDRIVE-Navを紹介する。
遭遇した方向をより完全に検査し、後続の判断を240度の範囲内の静止方向に制限することにより、DRIVE-Navは冗長な修正を減らし、経路効率を向上させる。
このフレームワークは、重み付けされたFMM(Fast Marching Method)パスから方向候補を抽出、追跡し、セマンティックインスペクションのための代表的ビューを維持し、視覚言語誘導のプロンプトエンリッチメントとクロスフレーム検証を組み合わせることで、基盤の信頼性を向上させる。
HM3D-OVON、HM3Dv2、MP3Dの実験は、全体的な性能と一貫した効率向上を示す。
HM3D-OVONでは、DRIVE-Navは50.2%のSRと32.6%のSPLを達成した。
HM3Dv2とMP3Dで最高のSPLを提供し、物理的なヒューマノイドロボットに転送する。
実世界のデプロイメントもその有効性を示している。
プロジェクトページ:https://coolmaoguo.github.io/drive-nav-page/
関連論文リスト
- ReMemNav: A Rethinking and Memory-Augmented Framework for Zero-Shot Object Navigation [35.416693138335354]
ゼロショットオブジェクトナビゲーションでは、エージェントは未知のターゲットオブジェクトを未知の環境で見つける必要がある。
視覚言語モデルの最近の進歩は、このタスクに有望な常識推論機能を提供する。
本稿では,パノラマ的セマンティック先行とエピソード記憶をシームレスに統合するReMemNavという新しい階層型ナビゲーションフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-25T09:07:32Z) - SWIFT-Nav: Stability-Aware Waypoint-Level TD3 with Fuzzy Arbitration for UAV Navigation in Cluttered Environments [0.0]
障害物認識経路への高速で安定した収束を実現するTD3ベースのナビゲーションフレームワークを提案する。
TD3とリプレイ優先、探索、ファジィセーフティルールを組み合わせることで、散らかったシーンにおけるUAVナビゲーションの堅牢でデプロイ可能なソリューションが得られることを示す。
論文 参考訳(メタデータ) (2025-12-17T23:19:06Z) - FOM-Nav: Frontier-Object Maps for Object Goal Navigation [65.76906445210112]
FOM-Navはフロンティアオブジェクトマップと視覚言語モデルによる探索効率を高めるフレームワークである。
FOM-Navをトレーニングするために,実環境から大規模ナビゲーションデータセットを自動構築する。
FOM-NavはMP3DとHM3Dのベンチマーク、特にナビゲーション効率の指標SPLで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-30T18:16:09Z) - DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation [55.888688171010365]
DORAEMONは、人間のナビゲーション機能を模倣したVentralとDorsal Streamsで構成される、認知にインスパイアされたフレームワークである。
我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の測定値の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-28T04:46:13Z) - SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation [12.152477445938759]
連続環境におけるVLN(Vision-and-Language Navigation)は、制約のない3D空間をナビゲートしながら自然言語命令を解釈するエージェントを必要とする。
既存のVLN-CEフレームワークは、2段階のアプローチに依存している。
マルチモーダル大言語モデル(MLLM)に基づくナビゲータと拡張されたウェイポイント予測器を統合したゼロショットVLN-CEフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T05:32:57Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - MVP: Unified Motion and Visual Self-Supervised Learning for Large-Scale
Robotic Navigation [23.54696982881734]
本稿では,大規模かつ目標駆動型ナビゲーションタスクのための新しい動き認識手法であるMVPを提案する。
我々のMVPベースの手法は、より速く学習でき、極端な環境変化とGPSデータの両方に対してより正確で堅牢です。
我々は,Oxford Robotcar と Nordland Railway の2つの大規模実世界のデータセットについて評価を行った。
論文 参考訳(メタデータ) (2020-03-02T05:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。