Fugu-MT 論文翻訳(概要): Hierarchical Spatial Proximity Reasoning for Vision-and-Language Navigation

論文の概要: Hierarchical Spatial Proximity Reasoning for Vision-and-Language Navigation

arxiv url: http://arxiv.org/abs/2403.11541v1
Date: Mon, 18 Mar 2024 07:51:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 16:16:57.309769
Title: Hierarchical Spatial Proximity Reasoning for Vision-and-Language Navigation
Title（参考訳）: 視覚・言語ナビゲーションのための階層的空間的近接推論
Authors: Ming Xu, Zilong Xie,
Abstract要約: 多くのヴィジュアル・アンド・ランゲージ・ナビゲーション (VLN) アルゴリズムは、視覚的常識の欠如と推論能力の不足により、意思決定ミスを起こす傾向がある。本稿では,この問題に対処する階層型空間近接推論(HSPR)モデルを提案する。提案手法の有効性を検証するために,REVERIE, SOON, R2R, R4Rなどの公開データセットの実験を行った。
参考スコア（独自算出の注目度）: 1.2473780585666772
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most Vision-and-Language Navigation (VLN) algorithms tend to make decision errors, primarily due to a lack of visual common sense and insufficient reasoning capabilities. To address this issue, this paper proposes a Hierarchical Spatial Proximity Reasoning (HSPR) model. Firstly, we design a Scene Understanding Auxiliary Task (SUAT) to assist the agent in constructing a knowledge base of hierarchical spatial proximity for reasoning navigation. Specifically, this task utilizes panoramic views and object features to identify regions in the navigation environment and uncover the adjacency relationships between regions, objects, and region-object pairs. Secondly, we dynamically construct a semantic topological map through agent-environment interactions and propose a Multi-step Reasoning Navigation Algorithm (MRNA) based on the map. This algorithm continuously plans various feasible paths from one region to another, utilizing the constructed proximity knowledge base, enabling more efficient exploration. Additionally, we introduce a Proximity Adaptive Attention Module (PAAM) and Residual Fusion Method (RFM) to enable the model to obtain more accurate navigation decision confidence. Finally, we conduct experiments on publicly available datasets including REVERIE, SOON, R2R, and R4R to validate the effectiveness of the proposed approach.
Abstract（参考訳）: 多くのヴィジュアル・アンド・ランゲージ・ナビゲーション (VLN) アルゴリズムは、視覚的常識の欠如と推論能力の不足により、意思決定ミスを起こす傾向がある。そこで本研究では,階層型空間近接推論(HSPR)モデルを提案する。まず、エージェントがナビゲーションを推論するための階層的空間近接の知識ベースを構築するのを支援するために、シーン理解補助タスク(SUAT)を設計する。具体的には、パノラマビューとオブジェクトの特徴を利用して、ナビゲーション環境内の領域を特定し、領域、オブジェクト、および領域オブジェクトペア間の隣接関係を明らかにする。次に,エージェント環境相互作用による意味的トポロジマップを動的に構築し,そのマップに基づくマルチステップ推論ナビゲーションアルゴリズム(MRNA)を提案する。このアルゴリズムは、構築された近接知識ベースを利用して、ある地域から別の地域までの様々な実現可能な経路を継続的に計画し、より効率的な探索を可能にする。さらに、より正確なナビゲーション決定の信頼性を得るために、PAAM(Proximity Adaptive Attention Module)とRFM(Residual Fusion Method)を導入する。最後に、提案手法の有効性を検証するために、REVERIE、SOON、R2R、R4Rなどの公開データセットについて実験を行った。

関連論文リスト

TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。 MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文参考訳（メタデータ） (2024-11-25T14:27:55Z)
SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation [83.4599149936183]
既存のゼロショットオブジェクトナビゲーション手法は、空間的に閉じたオブジェクトのテキストでLCMをプロンプトする。本稿では,3次元シーングラフを用いて観察されたシーンを表現することを提案する。我々は,MP3D,HM3D,RoboTHOR環境において,SG-Navが従来のゼロショット法を10%以上のSRで上回る大規模な実験を行った。
論文参考訳（メタデータ） (2024-10-10T17:57:19Z)
PRET: Planning with Directed Fidelity Trajectory for Vision and Language Navigation [30.710806048991923]
視覚と言語ナビゲーションは、エージェントが自然言語の指示に従ってナビゲートする必要があるタスクである。近年の手法では、各ステップで構築されたトポロジーマップのサブゴールを予測し、長期的な行動計画を可能にする。本稿では,指示と指向性軌道のアライメントを考慮し,ナビゲーション計画を容易にする方法を提案する。
論文参考訳（メタデータ） (2024-07-16T08:22:18Z)
Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文参考訳（メタデータ） (2024-02-29T06:31:18Z)
Probable Object Location (POLo) Score Estimation for Efficient Object Goal Navigation [15.623723522165731]
本稿では,POLo(Probable Object Location)スコアを中心とした新しいフレームワークを提案する。計算集約的なPOLoスコアを近似するためにトレーニングされたニューラルネットワークであるPOLoNetを導入することで、フレームワークの実用性をさらに向上する。 OVMM 2023チャレンジの第1フェーズを含む実験では,POLoNetを組み込んだエージェントが,幅広いベースライン手法を著しく上回ることを示した。
論文参考訳（メタデータ） (2023-11-14T08:45:32Z)
KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文参考訳（メタデータ） (2023-03-28T08:00:46Z)
Meta-Explore: Exploratory Hierarchical Vision-and-Language Navigation Using Scene Object Spectrum Grounding [16.784045122994506]
本稿では,最近の行動の誤りを正すために,利用ポリシーをデプロイする階層的なナビゲーション手法を提案する。本研究では,エージェントをローカルな目標に向かって移動させるエクスプロイトポリシーが,エージェントを以前訪問した状態に移動させる手法よりも優れていることを示す。本稿では,検出対象のカテゴリワイド2次元フーリエ変換を行う,シーンオブジェクトスペクトル(SOS)と呼ばれる新しい視覚表現を提案する。
論文参考訳（メタデータ） (2023-03-07T17:39:53Z)
Explore before Moving: A Feasible Path Estimation and Memory Recalling Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。 EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文参考訳（メタデータ） (2021-10-16T13:30:55Z)
SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文参考訳（メタデータ） (2021-03-31T15:01:04Z)
Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。ナビゲーション中に知覚を正確に記憶できるほど区画化されている。また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文参考訳（メタデータ） (2021-03-05T03:41:00Z)
Neural Topological SLAM for Visual Navigation [112.73876869904]
意味論を生かし、近似幾何学的推論を行う空間のトポロジ的表現を設計する。本稿では,ノイズのあるアクティベーションの下でそのような表現を構築し,維持し,使用することができる教師付き学習ベースアルゴリズムについて述べる。
論文参考訳（メタデータ） (2020-05-25T17:56:29Z)
Learning hierarchical relationships for object-goal navigation [7.074818959144171]
室内におけるナビゲーションのためのメモリ利用共同階層型物体学習(MJOLNIR)を提案する。 MJOLNIRはターゲット駆動ナビゲーションアルゴリズムであり、ターゲットオブジェクトと周囲に存在するより健全なコンテキストオブジェクトの間に固有の関係を考察する。我々のモデルは、よく知られた過適合問題に悩まされることなく、他のアルゴリズムよりもはるかに早く収束することを学ぶ。
論文参考訳（メタデータ） (2020-03-15T04:01:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。