論文の概要: HyPerNav: Hybrid Perception for Object-Oriented Navigation in Unknown Environment
- arxiv url: http://arxiv.org/abs/2510.22917v1
- Date: Mon, 27 Oct 2025 01:43:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.996494
- Title: HyPerNav: Hybrid Perception for Object-Oriented Navigation in Unknown Environment
- Title(参考訳): HyPerNav: 未知環境におけるオブジェクト指向ナビゲーションのためのハイブリッド認識
- Authors: Zecheng Yin, Hao Zhao, Zhen Li,
- Abstract要約: 未知環境におけるナビゲーションの有効性とインテリジェンスを高めるために,Hybrid Perception Navigation (HyNav)を提案する。
本手法は,エゴセントリックな観測からの情報とトップダウンマップを同時に利用することにより,よりリッチなキューを捕捉し,オブジェクトをより効果的に発見する。
- 参考スコア(独自算出の注目度): 9.835605248219586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective-oriented navigation(ObjNav) enables robot to navigate to target object directly and autonomously in an unknown environment. Effective perception in navigation in unknown environment is critical for autonomous robots. While egocentric observations from RGB-D sensors provide abundant local information, real-time top-down maps offer valuable global context for ObjNav. Nevertheless, the majority of existing studies focus on a single source, seldom integrating these two complementary perceptual modalities, despite the fact that humans naturally attend to both. With the rapid advancement of Vision-Language Models(VLMs), we propose Hybrid Perception Navigation (HyPerNav), leveraging VLMs' strong reasoning and vision-language understanding capabilities to jointly perceive both local and global information to enhance the effectiveness and intelligence of navigation in unknown environments. In both massive simulation evaluation and real-world validation, our methods achieved state-of-the-art performance against popular baselines. Benefiting from hybrid perception approach, our method captures richer cues and finds the objects more effectively, by simultaneously leveraging information understanding from egocentric observations and the top-down map. Our ablation study further proved that either of the hybrid perception contributes to the navigation performance.
- Abstract(参考訳): 目的指向ナビゲーション(ObjNav)は、ロボットが未知の環境で直接かつ自律的に対象物にナビゲートすることを可能にする。
未知環境におけるナビゲーションの効果的な認識は、自律ロボットにとって重要である。
RGB-Dセンサーによる自我中心の観測が豊富なローカル情報を提供する一方で、リアルタイムのトップダウンマップはObjNavにとって貴重なグローバルコンテキストを提供する。
とはいえ、既存の研究の大半は単一の情報源に焦点を当てており、人間が自然に両方に参加するという事実にもかかわらず、これら2つの相補的な知覚のモダリティを統合することはめったにない。
視覚言語モデル(VLM)の急速な進歩に伴い,VLMの強い推論能力と視覚言語理解能力を活用して,ローカル情報とグローバル情報の両方を共同で知覚し,未知環境におけるナビゲーションの有効性と知性を高めるハイブリッド知覚ナビゲーション(HyPerNav)を提案する。
提案手法は,大規模シミュレーション評価と実世界検証の両方において,一般的なベースラインに対する最先端性能を達成した。
本手法は, ハイブリッド認識手法により, エゴセントリックな観測からの情報理解とトップダウンマップを同時に活用することにより, よりリッチな手がかりを捕捉し, より効果的に物体を見つける。
以上の結果より,ハイブリッド認知が航法性能に寄与することが示唆された。
関連論文リスト
- DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation [55.888688171010365]
DORAEMONは、人間のナビゲーション機能を模倣したVentralとDorsal Streamsで構成される、認知にインスパイアされたフレームワークである。
我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の測定値の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-28T04:46:13Z) - Vi-LAD: Vision-Language Attention Distillation for Socially-Aware Robot Navigation in Dynamic Environments [41.75629159747654]
社会に適合したナビゲーション知識を蒸留する新しいアプローチであるVi-LAD(Vision-Language Attention Distillation)を紹介する。
Vi-LADは、事前学習された視覚行動モデルから抽出された中間注意マップを用いたトランスフォーマーベースモデルを微調整する。
我々は,ハスキー車輪付きロボットによる実世界実験を通じて,我々のアプローチを検証するとともに,最先端のナビゲーション手法に対する大幅な改善を実証した。
論文 参考訳(メタデータ) (2025-03-12T20:38:23Z) - Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation [35.71602601385161]
本稿では,視覚言語モデル(VLM)に基づくナビゲーションフレームワークを提案する。
提案手法は,長期タスクにおける空間的推論と意思決定を促進する。
実験の結果,提案手法は従来のオブジェクトナビゲーションタスクの手法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-02-20T04:41:40Z) - NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [24.689242976554482]
慣れ親しんだ環境をナビゲートすることは、家庭用ロボットにとって大きな課題となる。
既存の強化学習手法は、直接新しい環境に移行することはできない。
我々は、事前学習された基礎モデルの論理知識と一般化能力をゼロショットナビゲーションに転送しようと試みる。
論文 参考訳(メタデータ) (2025-02-19T17:27:47Z) - CogNav: Cognitive Process Modeling for Object Goal Navigation with LLMs [39.657663028904814]
オブジェクトゴールナビゲーション(Object goal navigation、ObjectNav)は、AIの具体化における基本的なタスクであり、エージェントが以前目に見えない環境でターゲットオブジェクトを見つける必要がある。
大規模言語モデルを用いた認知過程の模倣を目的としたフレームワークであるCogNavを提案する。
CogNavは、少なくとも最先端技術に比べて、ObjectNavの成功率を14%向上させる。
論文 参考訳(メタデータ) (2024-12-11T09:50:35Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object
Navigation [75.13546386761153]
我々は,新しいゼロショットオブジェクトナビゲーション手法であるExploration with Soft Commonsense constraints (ESC)を提案する。
ESCは、事前訓練されたモデルのコモンセンス知識を、ナビゲーション経験のないオープンワールドオブジェクトナビゲーションに転送する。
MP3D, HM3D, RoboTHORのベンチマーク実験により, ESC法はベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-01-30T18:37:32Z) - Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。
エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。
計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文 参考訳(メタデータ) (2021-04-28T22:46:41Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。