論文の概要: RSRNav: Reasoning Spatial Relationship for Image-Goal Navigation
- arxiv url: http://arxiv.org/abs/2504.17991v1
- Date: Fri, 25 Apr 2025 00:22:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.600588
- Title: RSRNav: Reasoning Spatial Relationship for Image-Goal Navigation
- Title(参考訳): RSRNav:イメージゴールナビゲーションのための空間関係の推論
- Authors: Zheng Qin, Le Wang, Yabing Wang, Sanping Zhou, Gang Hua, Wei Tang,
- Abstract要約: 近年のイメージゴールナビゲーション(ImageNav)手法は,目標と自我中心の画像の意味的特徴を別々に捉え,知覚行動ポリシーを学習している。
本稿では,目標と現在の観測値の空間的関係をナビゲーションガイダンスとして考慮する,シンプルで効果的な手法であるRSRNavを提案する。
- 参考スコア(独自算出の注目度): 41.61988100701265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent image-goal navigation (ImageNav) methods learn a perception-action policy by separately capturing semantic features of the goal and egocentric images, then passing them to a policy network. However, challenges remain: (1) Semantic features often fail to provide accurate directional information, leading to superfluous actions, and (2) performance drops significantly when viewpoint inconsistencies arise between training and application. To address these challenges, we propose RSRNav, a simple yet effective method that reasons spatial relationships between the goal and current observations as navigation guidance. Specifically, we model the spatial relationship by constructing correlations between the goal and current observations, which are then passed to the policy network for action prediction. These correlations are progressively refined using fine-grained cross-correlation and direction-aware correlation for more precise navigation. Extensive evaluation of RSRNav on three benchmark datasets demonstrates superior navigation performance, particularly in the "user-matched goal" setting, highlighting its potential for real-world applications.
- Abstract(参考訳): 最近の画像ゴールナビゲーション(ImageNav)手法は、目標と自我中心の画像の意味的特徴を別々に捉え、それらをポリシーネットワークに渡すことによって、知覚行動ポリシーを学習する。
しかし,(1) 意味的特徴が正確な方向情報の提供に失敗し,過度な行動を引き起こすこと,(2) 学習と応用の間に視点の不整合が発生すると,パフォーマンスが著しく低下する,といった課題が残されている。
これらの課題に対処するために,目標と現在の観測値の空間的関係をナビゲーションガイダンスとして考慮する,シンプルで効果的な手法であるRSRNavを提案する。
具体的には、目標と現在の観測値の相関関係を構築して空間関係をモデル化し、行動予測のためにポリシーネットワークに渡される。
これらの相関は、より精密なナビゲーションのために、微粒な相互相関と方向認識相関を用いて徐々に洗練される。
RSRNavの3つのベンチマークデータセットに対する広範囲な評価は、特に"ユーザマッチングの目標"設定において、ナビゲーション性能が優れていることを示し、現実世界のアプリケーションに対するその可能性を強調している。
関連論文リスト
- PRET: Planning with Directed Fidelity Trajectory for Vision and Language Navigation [30.710806048991923]
視覚と言語ナビゲーションは、エージェントが自然言語の指示に従ってナビゲートする必要があるタスクである。
近年の手法では、各ステップで構築されたトポロジーマップのサブゴールを予測し、長期的な行動計画を可能にする。
本稿では,指示と指向性軌道のアライメントを考慮し,ナビゲーション計画を容易にする方法を提案する。
論文 参考訳(メタデータ) (2024-07-16T08:22:18Z) - Temporal-Spatial Object Relations Modeling for Vision-and-Language Navigation [11.372544701050044]
VLN(Vision-and-Language Navigation)は、エージェントが視覚観察を通して記述された自然言語にナビゲートする必要がある課題である。
エージェントのナビゲーション能力は、通常内部オブジェクトまたは外部データセットを使用して学習されるオブジェクト間の関係によって強化することができる。
論文 参考訳(メタデータ) (2024-03-23T02:44:43Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network [3.0820097046465285]
ゼロショット(Zero-shot)とは、エージェントが探すべきターゲットがトレーニングフェーズ中にトレーニングされないことを意味する。
本研究では,学習中の目標特徴とナビゲーション能力の結合の問題に対処するために,クラス独立関係ネットワーク(CIRN)を提案する。
本手法は、ゼロショット目標視覚ナビゲーションタスクにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2023-10-15T16:42:14Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory
Prediction [64.16212996247943]
歩行者軌道予測のためのスパースグラフ畳み込みネットワーク(SGCN)を提案する。
具体的には、SGCNはスパース指向の相互作用をスパース指向の空間グラフと明確にモデル化し、適応的な相互作用歩行者を捉える。
可視化は,歩行者の適応的相互作用とその運動特性を捉えることができることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:17:42Z) - Robust Correlation Tracking via Multi-channel Fused Features and
Reliable Response Map [10.079856376445598]
本稿では,2つのアイデアに基づく頑健な相関追跡アルゴリズム(RCT)を提案する。
まず,追跡対象の勾配や色情報をより自然に記述するために,特徴を融合する手法を提案する。
第二に、応答マップにおけるノイズを著しく低減し、従ってモデルドリフトの問題を緩和する新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-11-25T07:15:03Z) - Learning Object Relation Graph and Tentative Policy for Visual
Navigation [44.247995617796484]
情報的視覚表現とロバストなナビゲーションポリシーを学ぶことは重要である。
本稿では、オブジェクト関係グラフ(ORG)、試行駆動型模倣学習(IL)、メモリ拡張仮ポリシーネットワーク(TPN)の3つの補完手法を提案する。
パス長(SPL)による成功率と成功率の22.8%と23.5%の増加を報告した。
論文 参考訳(メタデータ) (2020-07-21T18:03:05Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。