論文の概要: GridMM: Grid Memory Map for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2307.12907v2
- Date: Tue, 25 Jul 2023 04:05:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 19:42:54.301087
- Title: GridMM: Grid Memory Map for Vision-and-Language Navigation
- Title(参考訳): GridMM:視覚・言語ナビゲーションのためのグリッドメモリマップ
- Authors: Zihan Wang and Xiangyang Li and Jiahao Yang and Yeqi Liu and Shuqiang
Jiang
- Abstract要約: ビジョン・アンド・ランゲージナビゲーション(VLN)は、エージェントが3D環境における自然言語の指示に従って遠隔地へ移動できるようにする。
訪問環境を構築するために、トップダウンのエゴセントリックで動的に成長するグリッドメモリマップを構築します。
地球から見ると、歴史的観測はトップダウンの視点で統一グリッドマップに投影され、環境の空間的関係をよりよく表すことができる。
- 参考スコア(独自算出の注目度): 49.59598912802782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-language navigation (VLN) enables the agent to navigate to a
remote location following the natural language instruction in 3D environments.
To represent the previously visited environment, most approaches for VLN
implement memory using recurrent states, topological maps, or top-down semantic
maps. In contrast to these approaches, we build the top-down egocentric and
dynamically growing Grid Memory Map (i.e., GridMM) to structure the visited
environment. From a global perspective, historical observations are projected
into a unified grid map in a top-down view, which can better represent the
spatial relations of the environment. From a local perspective, we further
propose an instruction relevance aggregation method to capture fine-grained
visual clues in each grid region. Extensive experiments are conducted on both
the REVERIE, R2R, SOON datasets in the discrete environments, and the R2R-CE
dataset in the continuous environments, showing the superiority of our proposed
method.
- Abstract(参考訳): ビジョン・アンド・ランゲージナビゲーション(VLN)は、エージェントが3D環境における自然言語の指示に従って遠隔地へ移動できるようにする。
これまで訪れた環境を表現するため、VLNのほとんどのアプローチは、リカレントステート、トポロジマップ、トップダウンセマンティックマップを使用してメモリを実装している。
これらのアプローチとは対照的に、訪問環境を構築するために、トップダウンのエゴセントリックで動的に成長するグリッドメモリマップ(GridMM)を構築します。
地球から見ると、歴史的観測はトップダウンの視点で統一グリッドマップに投影され、環境の空間的関係をより良く表現することができる。
さらに,局所的な視点から,各グリッド領域における細粒度の視覚手がかりを捉えるための指示関連集約手法を提案する。
離散環境におけるREVERIE, R2R, SOONデータセット, 連続環境におけるR2R-CEデータセットについて, 実験を行い, 提案手法の優位性を示した。
関連論文リスト
- OSMLoc: Single Image-Based Visual Localization in OpenStreetMap with Geometric and Semantic Guidances [11.085165252259042]
OSMLocは、脳にインスパイアされた単一画像の視覚的位置決め手法であり、精度、堅牢性、一般化能力を改善するための意味的および幾何学的ガイダンスを備えている。
提案したOSMLOCを検証するため,世界規模のクロスエリアとクロスコンディション(CC)のベンチマークを収集し,広範な評価を行う。
論文 参考訳(メタデータ) (2024-11-13T14:59:00Z) - LiteVLoc: Map-Lite Visual Localization for Image Goal Navigation [5.739362282280063]
LiteVLocは、環境を表現するために軽量のトポメトリックマップを使用する視覚的ローカライゼーションフレームワークである。
学習に基づく特徴マッチングと幾何学的解法を利用して、メートル法ポーズ推定をすることで、ストレージオーバーヘッドを低減する。
論文 参考訳(メタデータ) (2024-10-06T09:26:07Z) - Semantic Environment Atlas for Object-Goal Navigation [12.057544558656035]
エンボディエージェントの視覚ナビゲーション能力を高めるために,セマンティック環境アトラス (SEA) を導入した。
SEAは様々な環境からの複数のセマンティックマップを統合し、場所-対象関係の記憶を保持する。
本手法は, 現状よりも12.4%向上した39.0%を達成できるが, 騒音・作動条件下では頑健性も維持できる。
論文 参考訳(メタデータ) (2024-10-05T00:37:15Z) - Bird's-Eye-View Scene Graph for Vision-Language Navigation [85.72725920024578]
視覚言語ナビゲーション(VLN)は、人間の指示に従って3D環境をナビゲートするエージェントである。
室内環境のシーンレイアウトと幾何学的手がかりを符号化するために,多段階のBEV表現を利用するBEVシーングラフ(BSG)を提案する。
BSGに基づいて、エージェントは、ローカルなBEVグリッドレベル決定スコアとグローバルなグラフレベル決定スコアを予測し、パノラマビューのサブビュー選択スコアと組み合わせる。
論文 参考訳(メタデータ) (2023-08-09T07:48:20Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Gaussian Process Gradient Maps for Loop-Closure Detection in
Unstructured Planetary Environments [17.276441789710574]
以前にマップされた位置を認識する能力は、自律システムにとって不可欠な機能である。
非構造的な惑星のような環境は、地形の類似性のためにこれらのシステムに大きな課題をもたらす。
本稿では,空間情報のみを用いたループ閉鎖問題の解法を提案する。
論文 参考訳(メタデータ) (2020-09-01T04:41:40Z) - Radar-based Dynamic Occupancy Grid Mapping and Object Detection [55.74894405714851]
近年、古典的占有グリッドマップのアプローチが動的占有グリッドマップに拡張されている。
本稿では,従来のアプローチのさらなる発展について述べる。
複数のレーダセンサのデータを融合し、グリッドベースの物体追跡・マッピング手法を適用する。
論文 参考訳(メタデータ) (2020-08-09T09:26:30Z) - OmniSLAM: Omnidirectional Localization and Dense Mapping for
Wide-baseline Multi-camera Systems [88.41004332322788]
超広視野魚眼カメラ(FOV)を用いた広視野多視点ステレオ構成のための全方向位置決めと高密度マッピングシステムを提案する。
より実用的で正確な再構築のために、全方向深度推定のための改良された軽量のディープニューラルネットワークを導入する。
我々は全方位深度推定をビジュアル・オドメトリー(VO)に統合し,大域的整合性のためのループ閉鎖モジュールを付加する。
論文 参考訳(メタデータ) (2020-03-18T05:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。