論文の概要: Nav-$R^2$ Dual-Relation Reasoning for Generalizable Open-Vocabulary Object-Goal Navigation
- arxiv url: http://arxiv.org/abs/2512.02400v1
- Date: Tue, 02 Dec 2025 04:21:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.715849
- Title: Nav-$R^2$ Dual-Relation Reasoning for Generalizable Open-Vocabulary Object-Goal Navigation
- Title(参考訳): Nav-$R^2$ Dual-Relation Reasoning for generalizable Open-Vocabulary Object-Goal Navigation
- Authors: Wentao Xiang, Haokang Zhang, Tianhang Yang, Zedong Chu, Ruihang Chu, Shichao Xie, Yujian Yuan, Jian Sun, Zhining Gu, Junjie Wang, Xiaolong Wu, Mu Xu, Yujiu Yang,
- Abstract要約: Nav-$R2$は、ターゲット環境モデリングと環境行動計画という2つのタイプの関係を明示的にモデル化するフレームワークである。
我々のSA-Memは、時間的・意味的両面から最も標的に関連し、現在の観測関連の特徴を保っている。
Nav-R2は、合理化され効率的なパイプラインを通して見えないオブジェクトをローカライズする、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 67.68165784193556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object-goal navigation in open-vocabulary settings requires agents to locate novel objects in unseen environments, yet existing approaches suffer from opaque decision-making processes and low success rate on locating unseen objects. To address these challenges, we propose Nav-$R^2$, a framework that explicitly models two critical types of relationships, target-environment modeling and environment-action planning, through structured Chain-of-Thought (CoT) reasoning coupled with a Similarity-Aware Memory. We construct a Nav$R^2$-CoT dataset that teaches the model to perceive the environment, focus on target-related objects in the surrounding context and finally make future action plans. Our SA-Mem preserves the most target-relevant and current observation-relevant features from both temporal and semantic perspectives by compressing video frames and fusing historical observations, while introducing no additional parameters. Compared to previous methods, Nav-R^2 achieves state-of-the-art performance in localizing unseen objects through a streamlined and efficient pipeline, avoiding overfitting to seen object categories while maintaining real-time inference at 2Hz. Resources will be made publicly available at \href{https://github.com/AMAP-EAI/Nav-R2}{github link}.
- Abstract(参考訳): オープンな語彙設定でのオブジェクトゴールナビゲーションでは、エージェントは未知の環境で新しいオブジェクトを見つける必要があるが、既存のアプローチは不透明な意思決定プロセスと、未知のオブジェクトの配置における成功率の低下に悩まされている。
これらの課題に対処するため、我々は、類似認識メモリと組み合わせた構造化されたチェーン・オブ・ソート(CoT)推論を通して、ターゲット環境モデリングと環境行動計画という2つの重要な関係を明示的にモデル化するフレームワークであるNav-$R^2$を提案する。
Nav$R^2$-CoTデータセットを構築し、環境を知覚し、周囲のコンテキストにおけるターゲット関連オブジェクトに集中し、最終的に将来のアクションプランを作成するようにモデルに教える。
我々のSA-Memは、ビデオフレームを圧縮し、歴史的観察を融合させることにより、時間的・意味的な視点から最も標的に関連のある、現在の観測関連特徴を保存し、追加のパラメータは導入しない。
従来の手法と比較して、Nav-R^2 は2Hz でリアルタイムな推論を維持しながらオブジェクトカテゴリに過度な適合を回避し、合理で効率的なパイプラインを通して未確認オブジェクトのローカライズにおける最先端のパフォーマンスを達成する。
リソースは \href{https://github.com/AMAP-EAI/Nav-R2}{github link} で公開されます。
関連論文リスト
- RAVEN: Resilient Aerial Navigation via Open-Set Semantic Memory and Behavior Adaptation [20.730528223747967]
RAVENは、非構造化屋外環境での空中セマンティックナビゲーションのための3Dメモリベースの行動ツリーフレームワークである。
空間的に一貫したセマンティックなボクセル線マップを永続記憶として使用し、長期計画を可能にし、純粋に反応性のある振る舞いを避ける。
RAVENは、シミュレーションのベースラインを85.25%上回り、屋外フィールドテストにおける空中ロボットへの展開を通じて実世界の適用性を実証している。
論文 参考訳(メタデータ) (2025-09-28T01:43:25Z) - DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation [73.80968452950854]
Vision-Language Navigation in Continuous Environments (VLN-CE) は、エージェントが自由形式の3D空間を通して自然言語の指示に従う必要がある。
既存のVLN-CEアプローチは通常、2段階のウェイポイント計画フレームワークを使用する。
本稿では,エンドツーエンド最適化VLN-CEポリシとしてDAgger Diffusion Navigation (DifNav)を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:51:43Z) - RSRNav: Reasoning Spatial Relationship for Image-Goal Navigation [57.197881161006904]
近年のイメージゴールナビゲーション(ImageNav)手法は,目標と自我中心の画像の意味的特徴を別々に捉え,知覚行動ポリシーを学習している。
本稿では,目標と現在の観測値の空間的関係をナビゲーションガイダンスとして考慮する,シンプルで効果的な手法であるRSRNavを提案する。
論文 参考訳(メタデータ) (2025-04-25T00:22:17Z) - TAS: A Transit-Aware Strategy for Embodied Navigation with Non-Stationary Targets [55.09248760290918]
非定常目標を持つ動的シナリオにおけるナビゲーションのための新しいアルゴリズムを提案する。
我々の新しいTAS(Transit-Aware Strategy)は、具体化されたナビゲーションポリシーをオブジェクトパス情報で強化する。
TASは、ターゲットルートとルートを同期させるエージェントを報酬することで、非定常環境での性能を改善する。
論文 参考訳(メタデータ) (2024-03-14T22:33:22Z) - Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network [3.0820097046465285]
ゼロショット(Zero-shot)とは、エージェントが探すべきターゲットがトレーニングフェーズ中にトレーニングされないことを意味する。
本研究では,学習中の目標特徴とナビゲーション能力の結合の問題に対処するために,クラス独立関係ネットワーク(CIRN)を提案する。
本手法は、ゼロショット目標視覚ナビゲーションタスクにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2023-10-15T16:42:14Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Learning hierarchical relationships for object-goal navigation [7.074818959144171]
室内におけるナビゲーションのためのメモリ利用共同階層型物体学習(MJOLNIR)を提案する。
MJOLNIRはターゲット駆動ナビゲーションアルゴリズムであり、ターゲットオブジェクトと周囲に存在するより健全なコンテキストオブジェクトの間に固有の関係を考察する。
我々のモデルは、よく知られた過適合問題に悩まされることなく、他のアルゴリズムよりもはるかに早く収束することを学ぶ。
論文 参考訳(メタデータ) (2020-03-15T04:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。