論文の概要: DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation
- arxiv url: http://arxiv.org/abs/2505.21969v2
- Date: Thu, 29 May 2025 09:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 13:10:25.781125
- Title: DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation
- Title(参考訳): DORAEMON: メモリ指向ナビゲーションを強化した分散型オントロジー対応信頼性エージェント
- Authors: Tianjun Gu, Linfeng Li, Xuhong Wang, Chenghua Gong, Jingyu Gong, Zhizhong Zhang, Yuan Xie, Lizhuang Ma, Xin Tan,
- Abstract要約: DORAEMONは、人間のナビゲーション機能を模倣したVentralとDorsal Streamsで構成される、認知にインスパイアされたフレームワークである。
我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の測定値の両方で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 45.87909960783996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptive navigation in unfamiliar environments is crucial for household service robots but remains challenging due to the need for both low-level path planning and high-level scene understanding. While recent vision-language model (VLM) based zero-shot approaches reduce dependence on prior maps and scene-specific training data, they face significant limitations: spatiotemporal discontinuity from discrete observations, unstructured memory representations, and insufficient task understanding leading to navigation failures. We propose DORAEMON (Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation), a novel cognitive-inspired framework consisting of Ventral and Dorsal Streams that mimics human navigation capabilities. The Dorsal Stream implements the Hierarchical Semantic-Spatial Fusion and Topology Map to handle spatiotemporal discontinuities, while the Ventral Stream combines RAG-VLM and Policy-VLM to improve decision-making. Our approach also develops Nav-Ensurance to ensure navigation safety and efficiency. We evaluate DORAEMON on the HM3D, MP3D, and GOAT datasets, where it achieves state-of-the-art performance on both success rate (SR) and success weighted by path length (SPL) metrics, significantly outperforming existing methods. We also introduce a new evaluation metric (AORI) to assess navigation intelligence better. Comprehensive experiments demonstrate DORAEMON's effectiveness in zero-shot autonomous navigation without requiring prior map building or pre-training.
- Abstract(参考訳): 不慣れな環境での適応ナビゲーションは、家庭用サービスロボットにとって不可欠であるが、低レベルパス計画と高レベルシーン理解の両方の必要性から、依然として困難である。
最近の視覚言語モデル(VLM)に基づくゼロショットアプローチは、事前の地図やシーン固有のトレーニングデータへの依存を減らすが、離散的な観察からの時空間の不連続、非構造化メモリ表現、ナビゲーション障害につながるタスク理解の不十分といった重大な制限に直面している。
DORAEMON (Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation)を提案する。
Dorsal Streamは時空間不連続性を扱うために階層的セマンティック・スパティアル・フュージョンとトポロジーマップを実装し、Ventral StreamはRAG-VLMとポリシー-VLMを組み合わせて意思決定を改善する。
また,ナビゲーションの安全性と効率性を確保するため,Nav-Ensuranceを開発した。
我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の両面での最先端のパフォーマンスを達成し,既存の手法を著しく上回った。
また、ナビゲーションインテリジェンスをよりよく評価するための新しい評価基準(AORI)を導入する。
総合的な実験では、地図作成や事前訓練を必要とせず、ゼロショット自律ナビゲーションにおけるDORAEMONの有効性を実証している。
関連論文リスト
- Hierarchical Reinforcement Learning for Safe Mapless Navigation with Congestion Estimation [7.339743259039457]
本稿では,階層的強化学習(HRL)を利用した安全な地図レスナビゲーションフレームワークを提案する。
その結果,HRLに基づくナビゲーションフレームワークは静的シナリオと動的シナリオの両方で優れていることがわかった。
本研究では,物理的な検証実験を行うために,TurtleBot3ロボット上にHRLベースのナビゲーションフレームワークを実装した。
論文 参考訳(メタデータ) (2025-03-15T08:03:50Z) - Vi-LAD: Vision-Language Attention Distillation for Socially-Aware Robot Navigation in Dynamic Environments [41.75629159747654]
社会に適合したナビゲーション知識を蒸留する新しいアプローチであるVi-LAD(Vision-Language Attention Distillation)を紹介する。
Vi-LADは、事前学習された視覚行動モデルから抽出された中間注意マップを用いたトランスフォーマーベースモデルを微調整する。
我々は,ハスキー車輪付きロボットによる実世界実験を通じて,我々のアプローチを検証するとともに,最先端のナビゲーション手法に対する大幅な改善を実証した。
論文 参考訳(メタデータ) (2025-03-12T20:38:23Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language
Model [28.79971953667143]
VoroNavは、リアルタイムで構築されたセマンティックマップから探索経路と計画ノードを抽出する意味探索フレームワークである。
トポロジカルおよびセマンティック情報を活用することで、VoroNavは大きな言語モデルで容易に解釈できるパスとイメージのテキストベースの記述を設計する。
論文 参考訳(メタデータ) (2024-01-05T08:05:07Z) - Mind the Gap: Improving Success Rate of Vision-and-Language Navigation
by Revisiting Oracle Success Routes [25.944819618283613]
Vision-and-Language Navigation (VLN) は、指定された命令に従うことで、ターゲットの場所へナビゲートすることを目的としている。
VLNの長年無視されてきた問題に対処する最初の試みは、成功率(SR)とOracle成功率(OSR)のギャップを狭めることです。
論文 参考訳(メタデータ) (2023-08-07T01:43:25Z) - Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文 参考訳(メタデータ) (2021-10-16T13:30:55Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。