論文の概要: Hierarchical Spatial Proximity Reasoning for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2403.11541v1
- Date: Mon, 18 Mar 2024 07:51:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 16:16:57.309769
- Title: Hierarchical Spatial Proximity Reasoning for Vision-and-Language Navigation
- Title(参考訳): 視覚・言語ナビゲーションのための階層的空間的近接推論
- Authors: Ming Xu, Zilong Xie,
- Abstract要約: 多くのヴィジュアル・アンド・ランゲージ・ナビゲーション (VLN) アルゴリズムは、視覚的常識の欠如と推論能力の不足により、意思決定ミスを起こす傾向がある。
本稿では,この問題に対処する階層型空間近接推論(HSPR)モデルを提案する。
提案手法の有効性を検証するために,REVERIE, SOON, R2R, R4Rなどの公開データセットの実験を行った。
- 参考スコア(独自算出の注目度): 1.2473780585666772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most Vision-and-Language Navigation (VLN) algorithms tend to make decision errors, primarily due to a lack of visual common sense and insufficient reasoning capabilities. To address this issue, this paper proposes a Hierarchical Spatial Proximity Reasoning (HSPR) model. Firstly, we design a Scene Understanding Auxiliary Task (SUAT) to assist the agent in constructing a knowledge base of hierarchical spatial proximity for reasoning navigation. Specifically, this task utilizes panoramic views and object features to identify regions in the navigation environment and uncover the adjacency relationships between regions, objects, and region-object pairs. Secondly, we dynamically construct a semantic topological map through agent-environment interactions and propose a Multi-step Reasoning Navigation Algorithm (MRNA) based on the map. This algorithm continuously plans various feasible paths from one region to another, utilizing the constructed proximity knowledge base, enabling more efficient exploration. Additionally, we introduce a Proximity Adaptive Attention Module (PAAM) and Residual Fusion Method (RFM) to enable the model to obtain more accurate navigation decision confidence. Finally, we conduct experiments on publicly available datasets including REVERIE, SOON, R2R, and R4R to validate the effectiveness of the proposed approach.
- Abstract(参考訳): 多くのヴィジュアル・アンド・ランゲージ・ナビゲーション (VLN) アルゴリズムは、視覚的常識の欠如と推論能力の不足により、意思決定ミスを起こす傾向がある。
そこで本研究では,階層型空間近接推論(HSPR)モデルを提案する。
まず、エージェントがナビゲーションを推論するための階層的空間近接の知識ベースを構築するのを支援するために、シーン理解補助タスク(SUAT)を設計する。
具体的には、パノラマビューとオブジェクトの特徴を利用して、ナビゲーション環境内の領域を特定し、領域、オブジェクト、および領域オブジェクトペア間の隣接関係を明らかにする。
次に,エージェント環境相互作用による意味的トポロジマップを動的に構築し,そのマップに基づくマルチステップ推論ナビゲーションアルゴリズム(MRNA)を提案する。
このアルゴリズムは、構築された近接知識ベースを利用して、ある地域から別の地域までの様々な実現可能な経路を継続的に計画し、より効率的な探索を可能にする。
さらに、より正確なナビゲーション決定の信頼性を得るために、PAAM(Proximity Adaptive Attention Module)とRFM(Residual Fusion Method)を導入する。
最後に、提案手法の有効性を検証するために、REVERIE、SOON、R2R、R4Rなどの公開データセットについて実験を行った。
関連論文リスト
- Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - Predicting Dense and Context-aware Cost Maps for Semantic Robot
Navigation [35.45993685414002]
本研究では,対象がセマンティックラベルで指定された未知環境における目標ナビゲーションの課題について検討する。
本稿では,意味的コンテキストを暗黙的に含む高コストマップを予測するために,ディープニューラルネットワークアーキテクチャとロス関数を提案する。
また、コストマップ予測のためのセマンティックなヒントを提供するために、アーキテクチャに中間レベルの視覚表現を融合する新しい方法を提案する。
論文 参考訳(メタデータ) (2022-10-17T11:43:19Z) - Uncertainty-driven Planner for Exploration and Navigation [36.933903274373336]
未確認環境における探索とポイントゴールナビゲーションの問題点を考察する。
本論では,屋内マップよりも先進的な学習が,これらの問題に対処する上で大きなメリットをもたらすと論じている。
本稿では、まず、エージェントの視野を超えた占有マップを生成することを学習する新しい計画フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-24T05:25:31Z) - Deep Reinforcement Learning for Adaptive Exploration of Unknown
Environments [6.90777229452271]
私達はUAVのための1つのステップで調査および搾取間のトレードオフに適応的な調査のアプローチを開発します。
提案手法では, 環境マップを小型でトラクタブルな地図に分解するために, マップセグメンテーション手法を用いる。
その結果,本提案手法は,ランダムに生成された環境をナビゲートし,ベースラインと比較してAoIを短時間でカバーできることが示された。
論文 参考訳(メタデータ) (2021-05-04T16:29:44Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z) - Neural Topological SLAM for Visual Navigation [112.73876869904]
意味論を生かし、近似幾何学的推論を行う空間のトポロジ的表現を設計する。
本稿では,ノイズのあるアクティベーションの下でそのような表現を構築し,維持し,使用することができる教師付き学習ベースアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2020-05-25T17:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。