論文の概要: GridMM: Grid Memory Map for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2307.12907v4
- Date: Thu, 24 Aug 2023 04:42:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 10:57:44.008535
- Title: GridMM: Grid Memory Map for Vision-and-Language Navigation
- Title(参考訳): GridMM:視覚・言語ナビゲーションのためのグリッドメモリマップ
- Authors: Zihan Wang and Xiangyang Li and Jiahao Yang and Yeqi Liu and Shuqiang
Jiang
- Abstract要約: ビジョン・アンド・ランゲージナビゲーション(VLN)は、エージェントが3D環境における自然言語の指示に従って遠隔地へ移動できるようにする。
訪問環境を構築するために、トップダウンのエゴセントリックで動的に成長するグリッドメモリマップを構築します。
地球から見ると、歴史的観測はトップダウンの視点で統一グリッドマップに投影され、環境の空間的関係をよりよく表すことができる。
- 参考スコア(独自算出の注目度): 40.815400962166535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-language navigation (VLN) enables the agent to navigate to a
remote location following the natural language instruction in 3D environments.
To represent the previously visited environment, most approaches for VLN
implement memory using recurrent states, topological maps, or top-down semantic
maps. In contrast to these approaches, we build the top-down egocentric and
dynamically growing Grid Memory Map (i.e., GridMM) to structure the visited
environment. From a global perspective, historical observations are projected
into a unified grid map in a top-down view, which can better represent the
spatial relations of the environment. From a local perspective, we further
propose an instruction relevance aggregation method to capture fine-grained
visual clues in each grid region. Extensive experiments are conducted on both
the REVERIE, R2R, SOON datasets in the discrete environments, and the R2R-CE
dataset in the continuous environments, showing the superiority of our proposed
method.
- Abstract(参考訳): ビジョン・アンド・ランゲージナビゲーション(VLN)は、エージェントが3D環境における自然言語の指示に従って遠隔地へ移動できるようにする。
これまで訪れた環境を表現するため、VLNのほとんどのアプローチは、リカレントステート、トポロジマップ、トップダウンセマンティックマップを使用してメモリを実装している。
これらのアプローチとは対照的に、訪問環境を構築するために、トップダウンのエゴセントリックで動的に成長するグリッドメモリマップ(GridMM)を構築します。
地球から見ると、歴史的観測はトップダウンの視点で統一グリッドマップに投影され、環境の空間的関係をより良く表現することができる。
さらに,局所的な視点から,各グリッド領域における細粒度の視覚手がかりを捉えるための指示関連集約手法を提案する。
離散環境におけるREVERIE, R2R, SOONデータセット, 連続環境におけるR2R-CEデータセットについて, 実験を行い, 提案手法の優位性を示した。
関連論文リスト
- Lookahead Exploration with Neural Radiance Representation for Continuous Vision-Language Navigation [41.38630220744729]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エージェントが3D環境における自然言語の指示に従って遠隔地へ移動できるようにする。
より良い航法計画のために、ルックアヘッド探索戦略は、候補地の将来環境を正確に予測し、エージェントの次の行動を効果的に評価することを目的としている。
論文 参考訳(メタデータ) (2024-04-02T13:36:03Z) - Bird's-Eye-View Scene Graph for Vision-Language Navigation [85.72725920024578]
視覚言語ナビゲーション(VLN)は、人間の指示に従って3D環境をナビゲートするエージェントである。
室内環境のシーンレイアウトと幾何学的手がかりを符号化するために,多段階のBEV表現を利用するBEVシーングラフ(BSG)を提案する。
BSGに基づいて、エージェントは、ローカルなBEVグリッドレベル決定スコアとグローバルなグラフレベル決定スコアを予測し、パノラマビューのサブビュー選択スコアと組み合わせる。
論文 参考訳(メタデータ) (2023-08-09T07:48:20Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Gaussian Process Gradient Maps for Loop-Closure Detection in
Unstructured Planetary Environments [17.276441789710574]
以前にマップされた位置を認識する能力は、自律システムにとって不可欠な機能である。
非構造的な惑星のような環境は、地形の類似性のためにこれらのシステムに大きな課題をもたらす。
本稿では,空間情報のみを用いたループ閉鎖問題の解法を提案する。
論文 参考訳(メタデータ) (2020-09-01T04:41:40Z) - Radar-based Dynamic Occupancy Grid Mapping and Object Detection [55.74894405714851]
近年、古典的占有グリッドマップのアプローチが動的占有グリッドマップに拡張されている。
本稿では,従来のアプローチのさらなる発展について述べる。
複数のレーダセンサのデータを融合し、グリッドベースの物体追跡・マッピング手法を適用する。
論文 参考訳(メタデータ) (2020-08-09T09:26:30Z) - Exploiting Multi-Layer Grid Maps for Surround-View Semantic Segmentation
of Sparse LiDAR Data [2.6876976011647145]
本稿では,LDARのみのセマンティックセグメンテーションの課題にアプローチするために,レーザレンジ測定をトップビューグリッドマップ表現に変換することを検討する。
我々はグリッドマップフレームワークを利用して関連情報を抽出し,多層グリッドマップを用いてそれらを表現している。
単層および多層アプローチを比較し、多層グリッドマップ入力の利点を実証する。
論文 参考訳(メタデータ) (2020-05-13T23:50:34Z) - OmniSLAM: Omnidirectional Localization and Dense Mapping for
Wide-baseline Multi-camera Systems [88.41004332322788]
超広視野魚眼カメラ(FOV)を用いた広視野多視点ステレオ構成のための全方向位置決めと高密度マッピングシステムを提案する。
より実用的で正確な再構築のために、全方向深度推定のための改良された軽量のディープニューラルネットワークを導入する。
我々は全方位深度推定をビジュアル・オドメトリー(VO)に統合し,大域的整合性のためのループ閉鎖モジュールを付加する。
論文 参考訳(メタデータ) (2020-03-18T05:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。