Fugu-MT 論文翻訳(概要): GridMM: Grid Memory Map for Vision-and-Language Navigation

論文の概要: GridMM: Grid Memory Map for Vision-and-Language Navigation

arxiv url: http://arxiv.org/abs/2307.12907v4
Date: Thu, 24 Aug 2023 04:42:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-25 10:57:44.008535
Title: GridMM: Grid Memory Map for Vision-and-Language Navigation
Title（参考訳）: GridMM:視覚・言語ナビゲーションのためのグリッドメモリマップ
Authors: Zihan Wang and Xiangyang Li and Jiahao Yang and Yeqi Liu and Shuqiang Jiang
Abstract要約: ビジョン・アンド・ランゲージナビゲーション(VLN)は、エージェントが3D環境における自然言語の指示に従って遠隔地へ移動できるようにする。訪問環境を構築するために、トップダウンのエゴセントリックで動的に成長するグリッドメモリマップを構築します。地球から見ると、歴史的観測はトップダウンの視点で統一グリッドマップに投影され、環境の空間的関係をよりよく表すことができる。
参考スコア（独自算出の注目度）: 40.815400962166535
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-and-language navigation (VLN) enables the agent to navigate to a remote location following the natural language instruction in 3D environments. To represent the previously visited environment, most approaches for VLN implement memory using recurrent states, topological maps, or top-down semantic maps. In contrast to these approaches, we build the top-down egocentric and dynamically growing Grid Memory Map (i.e., GridMM) to structure the visited environment. From a global perspective, historical observations are projected into a unified grid map in a top-down view, which can better represent the spatial relations of the environment. From a local perspective, we further propose an instruction relevance aggregation method to capture fine-grained visual clues in each grid region. Extensive experiments are conducted on both the REVERIE, R2R, SOON datasets in the discrete environments, and the R2R-CE dataset in the continuous environments, showing the superiority of our proposed method.
Abstract（参考訳）: ビジョン・アンド・ランゲージナビゲーション(VLN)は、エージェントが3D環境における自然言語の指示に従って遠隔地へ移動できるようにする。これまで訪れた環境を表現するため、VLNのほとんどのアプローチは、リカレントステート、トポロジマップ、トップダウンセマンティックマップを使用してメモリを実装している。これらのアプローチとは対照的に、訪問環境を構築するために、トップダウンのエゴセントリックで動的に成長するグリッドメモリマップ(GridMM)を構築します。地球から見ると、歴史的観測はトップダウンの視点で統一グリッドマップに投影され、環境の空間的関係をより良く表現することができる。さらに,局所的な視点から,各グリッド領域における細粒度の視覚手がかりを捉えるための指示関連集約手法を提案する。離散環境におけるREVERIE, R2R, SOONデータセット, 連続環境におけるR2R-CEデータセットについて, 実験を行い, 提案手法の優位性を示した。

関連論文リスト

MapDream: Task-Driven Map Learning for Vision-Language Navigation [24.46479241004971]
Vision-Language Navigation (VLN)は、エージェントが部分的に観察された3D環境で自然言語の指示に従う必要がある。本研究では,マップ構築を自己回帰型鳥眼ビュー(BEV)画像合成として定式化するマップ・イン・ザ・ループ・フレームワークであるMapDreamを提案する。 R2R-CEとRxR-CEの実験は、タスク駆動型生成マップ学習を検証し、最先端のモノクル性能を実現する。
論文参考訳（メタデータ） (2026-01-30T17:33:16Z)
History-Enhanced Two-Stage Transformer for Aerial Vision-and-Language Navigation [64.51891404034164]
Aerial Vision-and-Language Navigation (AVLN) は、大規模都市環境でターゲットをローカライズするために無人航空機(UAV)のエージェントを必要とする。既存のUAVエージェントは通常、これらの2つの側面のバランスに苦しむ単粒度フレームワークを採用する。この研究は、粗いナビゲーションパイプラインを通じて2つの側面を統合するヒストリ強化2段階トランスフォーマー(HETT)フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-16T09:16:07Z)
Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文参考訳（メタデータ） (2025-07-05T14:15:52Z)
ST-Booster: An Iterative SpatioTemporal Perception Booster for Vision-and-Language Navigation in Continuous Environments [1.9566515100805284]
VLN-CEは、自然言語命令に基づいて連続空間をナビゲートするエージェントを必要とする。本稿では,マルチグラニュラリティ認識と命令認識推論による性能向上を目的としたナビゲーションブースターST-Boosterを紹介する。大規模な実験と性能解析を行い、ST-Boosterが既存の最先端手法より優れていることを示した。
論文参考訳（メタデータ） (2025-04-14T03:29:08Z)
TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation [3.2688425993442696]
視覚言語ナビゲーション(VLN)のためのモジュラーアプローチを提案する。ゼロショット設定では、最先端のLarge Language Models(LLM)とVision-Language Models(VLM)を使用します。共同意味マップを用いた他の手法と比較して優れた性能を示す。
論文参考訳（メタデータ） (2025-02-11T07:09:37Z)
OSMLoc: Single Image-Based Visual Localization in OpenStreetMap with Geometric and Semantic Guidances [11.085165252259042]
OSMLocは、脳にインスパイアされた単一画像の視覚的位置決め手法であり、精度、堅牢性、一般化能力を改善するための意味的および幾何学的ガイダンスを備えている。提案したOSMLOCを検証するため,世界規模のクロスエリアとクロスコンディション(CC)のベンチマークを収集し,広範な評価を行う。
論文参考訳（メタデータ） (2024-11-13T14:59:00Z)
LiteVLoc: Map-Lite Visual Localization for Image Goal Navigation [5.739362282280063]
LiteVLocは、環境を表現するために軽量のトポメトリックマップを使用する視覚的ローカライゼーションフレームワークである。学習に基づく特徴マッチングと幾何学的解法を利用して、メートル法ポーズ推定をすることで、ストレージオーバーヘッドを低減する。
論文参考訳（メタデータ） (2024-10-06T09:26:07Z)
Semantic Environment Atlas for Object-Goal Navigation [12.057544558656035]
エンボディエージェントの視覚ナビゲーション能力を高めるために,セマンティック環境アトラス (SEA) を導入した。 SEAは様々な環境からの複数のセマンティックマップを統合し、場所-対象関係の記憶を保持する。本手法は, 現状よりも12.4%向上した39.0%を達成できるが, 騒音・作動条件下では頑健性も維持できる。
論文参考訳（メタデータ） (2024-10-05T00:37:15Z)
Bird's-Eye-View Scene Graph for Vision-Language Navigation [85.72725920024578]
視覚言語ナビゲーション(VLN)は、人間の指示に従って3D環境をナビゲートするエージェントである。室内環境のシーンレイアウトと幾何学的手がかりを符号化するために,多段階のBEV表現を利用するBEVシーングラフ(BSG)を提案する。 BSGに基づいて、エージェントは、ローカルなBEVグリッドレベル決定スコアとグローバルなグラフレベル決定スコアを予測し、パノラマビューのサブビュー選択スコアと組み合わせる。
論文参考訳（メタデータ） (2023-08-09T07:48:20Z)
TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。 TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文参考訳（メタデータ） (2021-11-14T19:01:02Z)
Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。ナビゲーション中に知覚を正確に記憶できるほど区画化されている。また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文参考訳（メタデータ） (2021-03-05T03:41:00Z)
Gaussian Process Gradient Maps for Loop-Closure Detection in Unstructured Planetary Environments [17.276441789710574]
以前にマップされた位置を認識する能力は、自律システムにとって不可欠な機能である。非構造的な惑星のような環境は、地形の類似性のためにこれらのシステムに大きな課題をもたらす。本稿では,空間情報のみを用いたループ閉鎖問題の解法を提案する。
論文参考訳（メタデータ） (2020-09-01T04:41:40Z)
Radar-based Dynamic Occupancy Grid Mapping and Object Detection [55.74894405714851]
近年、古典的占有グリッドマップのアプローチが動的占有グリッドマップに拡張されている。本稿では,従来のアプローチのさらなる発展について述べる。複数のレーダセンサのデータを融合し、グリッドベースの物体追跡・マッピング手法を適用する。
論文参考訳（メタデータ） (2020-08-09T09:26:30Z)
OmniSLAM: Omnidirectional Localization and Dense Mapping for Wide-baseline Multi-camera Systems [88.41004332322788]
超広視野魚眼カメラ(FOV)を用いた広視野多視点ステレオ構成のための全方向位置決めと高密度マッピングシステムを提案する。より実用的で正確な再構築のために、全方向深度推定のための改良された軽量のディープニューラルネットワークを導入する。我々は全方位深度推定をビジュアル・オドメトリー(VO)に統合し,大域的整合性のためのループ閉鎖モジュールを付加する。
論文参考訳（メタデータ） (2020-03-18T05:52:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。