論文の概要: BEVBert: Multimodal Map Pre-training for Language-guided Navigation
- arxiv url: http://arxiv.org/abs/2212.04385v2
- Date: Thu, 3 Aug 2023 09:39:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 17:26:05.540177
- Title: BEVBert: Multimodal Map Pre-training for Language-guided Navigation
- Title(参考訳): BEVBert: 言語誘導ナビゲーションのためのマルチモーダルマップ事前トレーニング
- Authors: Dong An, Yuankai Qi, Yangguang Li, Yan Huang, Liang Wang, Tieniu Tan,
Jing Shao
- Abstract要約: 視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
- 参考スコア(独自算出の注目度): 75.23388288113817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale pre-training has shown promising results on the
vision-and-language navigation (VLN) task. However, most existing pre-training
methods employ discrete panoramas to learn visual-textual associations. This
requires the model to implicitly correlate incomplete, duplicate observations
within the panoramas, which may impair an agent's spatial understanding. Thus,
we propose a new map-based pre-training paradigm that is spatial-aware for use
in VLN. Concretely, we build a local metric map to explicitly aggregate
incomplete observations and remove duplicates, while modeling navigation
dependency in a global topological map. This hybrid design can balance the
demand of VLN for both short-term reasoning and long-term planning. Then, based
on the hybrid map, we devise a pre-training framework to learn a multimodal map
representation, which enhances spatial-aware cross-modal reasoning thereby
facilitating the language-guided navigation goal. Extensive experiments
demonstrate the effectiveness of the map-based pre-training route for VLN, and
the proposed method achieves state-of-the-art on four VLN benchmarks.
- Abstract(参考訳): 大規模事前学習は視覚・言語ナビゲーション(VLN)タスクにおいて有望な結果を示している。
しかしながら、既存のほとんどの事前学習方法は、視覚的・テキスト関連を学ぶために離散的なパノラマを用いる。
このモデルでは、パノラマ内の不完全で重複した観測を暗黙的に相関させる必要があり、エージェントの空間的理解を損なう可能性がある。
そこで本研究では,VLNにおける空間認識型事前学習パラダイムを提案する。
具体的には、グローバルトポロジカルマップのナビゲーション依存性をモデル化しながら、不完全な観測を明示的に集約し、重複を取り除くためのローカルメトリックマップを構築します。
このハイブリッド設計は、短期推論と長期計画の両方においてVLNの需要のバランスをとることができる。
そこで,ハイブリッドマップをベースとしたマルチモーダルマップ表現学習のための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
広汎な実験により、VLNのマップベース事前学習経路の有効性が示され、提案手法は、4つのVLNベンチマークの最先端化を実現する。
関連論文リスト
- Context-Enhanced Multi-View Trajectory Representation Learning: Bridging the Gap through Self-Supervised Models [27.316692263196277]
MVTrajは、軌道表現学習のための新しい多視点モデリング手法である。
GPSから道路網、関心点まで多様な文脈知識を統合し、軌跡データのより包括的な理解を提供する。
実世界のデータセットに対する大規模な実験により、MVTrajは様々な空間ビューに関連するタスクにおいて、既存のベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-10-17T03:56:12Z) - Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - ENTL: Embodied Navigation Trajectory Learner [37.43079415330256]
エンボディナビゲーションのための長いシーケンス表現を抽出する手法を提案する。
我々は,現在の行動に則った将来の状態のベクトル量子化予測を用いてモデルを訓練する。
提案手法の重要な特徴は、モデルが明示的な報酬信号なしで事前訓練されることである。
論文 参考訳(メタデータ) (2023-04-05T17:58:33Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Cross-modal Map Learning for Vision and Language Navigation [82.04247028482244]
VLN(Vision-and-Language Navigation)の問題点について考察する。
他の研究とは対照的に、我々の重要な洞察は、言語と視覚の関連性は、明示的な空間表現で起こるときに強くなるということである。
視覚・言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案する。このモデルでは,まず,観測領域と観測対象領域の両方に対して,エゴセントリックマップ上のトップダウンセマンティクスを予測することを学習する。
論文 参考訳(メタデータ) (2022-03-10T03:30:12Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - SASRA: Semantically-aware Spatio-temporal Reasoning Agent for
Vision-and-Language Navigation in Continuous Environments [7.5606260987453116]
本稿では,連続3次元環境における視覚・言語ナビゲーション(VLN)タスクに対する新しいアプローチを提案する。
既存のエンド・ツー・エンドの学習手法は、主に生の視覚的観察に焦点を当てているため、この課題に苦慮している。
本稿では,古典的意味マッピング手法と学習に基づく手法を組み合わせることに焦点を当てたハイブリッドトランスフォーマー・リカレンスモデルを提案する。
論文 参考訳(メタデータ) (2021-08-26T17:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。