論文の概要: SR-Nav: Spatial Relationships Matter for Zero-shot Object Goal Navigation
- arxiv url: http://arxiv.org/abs/2603.18443v1
- Date: Thu, 19 Mar 2026 03:09:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.933424
- Title: SR-Nav: Spatial Relationships Matter for Zero-shot Object Goal Navigation
- Title(参考訳): SR-Nav:ゼロショット目標ナビゲーションのための空間的関係
- Authors: Leyuan Fang, Zan Mao, Zijing Wang, Yinlong Yan,
- Abstract要約: ゼロショットのオブジェクトゴールナビゲーションは、エゴセントリックな観測のみを使用して、目に見えない環境で対象物を見つけることを目的としている。
近年の手法は、ナビゲーション性能を高めるために基礎モデルの理解と推論能力を活用している。
本研究では、観察と経験に基づく空間的関係をモデル化し、知覚と計画の両面を強化するフレームワークであるSpatial Relation-Aware Navigation (SR-Nav)を提案する。
- 参考スコア(独自算出の注目度): 23.52929533412924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot object-goal navigation aims to find target objects in unseen environments using only egocentric observation. Recent methods leverage foundation models' comprehension and reasoning capabilities to enhance navigation performance. However, when faced with poor viewpoints or weak semantic cues, foundation models often fail to support reliable reasoning in both perception and planning, resulting in inefficient or failed navigation. We observe that inherent relationships among objects and regions encode structured scene priors, which help agents infer plausible target locations even under partial observations. Motivated by this insight, we propose Spatial Relation-aware Navigation (SR-Nav), a framework that models both observed and experience-based spatial relationships to enhance both perception and planning. Specifically, SR-Nav first constructs a Dynamic Spatial Relationship Graph (DSRG) that encodes the target-centered spatial relationships through the foundation models and updates dynamically with real-time observations. We then introduce a Relation-aware Matching Module. It utilizes relationship matching instead of naive detection, leveraging diverse relationships in the DSRG to verify and correct errors, enhancing visual perception robustness. Finally, we design a Dynamic Relationship Planning Module to reduce the planning search space by dynamically computing the optimal paths based on the DSRG from the current position, thereby guiding planning and reducing exploration redundancy. Experiments on HM3D show that our method achieves state-of-the-art performance in both success rate and navigation efficiency. The code will be publicly available at https://github.com/Mzyw-1314/SR-Nav
- Abstract(参考訳): ゼロショットのオブジェクトゴールナビゲーションは、エゴセントリックな観察のみを使用して、目に見えない環境でターゲットオブジェクトを見つけることを目的としている。
近年の手法は、ナビゲーション性能を高めるために基礎モデルの理解と推論能力を活用している。
しかし、貧弱な視点や弱いセマンティック・キューに直面すると、基礎モデルは認識と計画の両方において信頼できる推論をサポートしず、結果として効率の悪さやナビゲーションが失敗する。
対象物と領域間の固有な関係が、構成されたシーン先行を符号化し、部分的な観察下であっても、エージェントが可視なターゲット位置を推測するのに役立つことを観察する。
この知見に触発されて、観察と経験に基づく空間関係をモデル化し、知覚と計画の両方を強化するフレームワークであるSpatial Relation-Aware Navigation (SR-Nav)を提案する。
具体的には、SR-Navはまず、基礎モデルを通してターゲット中心の空間関係を符号化し、リアルタイム観測で動的に更新する動的空間関係グラフ(DSRG)を構築する。
次に、リレーショナル・アウェア・マッチング・モジュールを導入します。
ナイーブ検出の代わりに関係マッチングを利用し、DSRG内の多様な関係を利用してエラーの検証と修正を行い、視覚的知覚の堅牢性を高める。
最後に,DSRGに基づく最適経路を現在の位置から動的に計算し,探索冗長性を誘導し,探索冗長性を低減し,探索空間を縮小する動的関係計画モジュールを設計する。
HM3D実験により,本手法は成功率と航法効率の両面で最先端の性能を実現する。
コードはhttps://github.com/Mzyw-1314/SR-Navで公開される。
関連論文リスト
- Nav-$R^2$ Dual-Relation Reasoning for Generalizable Open-Vocabulary Object-Goal Navigation [67.68165784193556]
Nav-$R2$は、ターゲット環境モデリングと環境行動計画という2つのタイプの関係を明示的にモデル化するフレームワークである。
我々のSA-Memは、時間的・意味的両面から最も標的に関連し、現在の観測関連の特徴を保っている。
Nav-R2は、合理化され効率的なパイプラインを通して見えないオブジェクトをローカライズする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-12-02T04:21:02Z) - DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation [55.888688171010365]
DORAEMONは、人間のナビゲーション機能を模倣したVentralとDorsal Streamsで構成される、認知にインスパイアされたフレームワークである。
我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の測定値の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-28T04:46:13Z) - RSRNav: Reasoning Spatial Relationship for Image-Goal Navigation [57.197881161006904]
近年のイメージゴールナビゲーション(ImageNav)手法は,目標と自我中心の画像の意味的特徴を別々に捉え,知覚行動ポリシーを学習している。
本稿では,目標と現在の観測値の空間的関係をナビゲーションガイダンスとして考慮する,シンプルで効果的な手法であるRSRNavを提案する。
論文 参考訳(メタデータ) (2025-04-25T00:22:17Z) - Temporal-Spatial Object Relations Modeling for Vision-and-Language Navigation [11.372544701050044]
VLN(Vision-and-Language Navigation)は、エージェントが視覚観察を通して記述された自然言語にナビゲートする必要がある課題である。
エージェントのナビゲーション能力は、通常内部オブジェクトまたは外部データセットを使用して学習されるオブジェクト間の関係によって強化することができる。
論文 参考訳(メタデータ) (2024-03-23T02:44:43Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。