論文の概要: BEVBert: Topo-Metric Map Pre-training for Language-guided Navigation
- arxiv url: http://arxiv.org/abs/2212.04385v1
- Date: Thu, 8 Dec 2022 16:27:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 14:21:20.911343
- Title: BEVBert: Topo-Metric Map Pre-training for Language-guided Navigation
- Title(参考訳): BEVBert: 言語誘導ナビゲーションのためのトポメトリックマップ事前トレーニング
- Authors: Dong An, Yuankai Qi, Yangguang Li, Yan Huang, Liang Wang, Tieniu Tan,
Jing Shao
- Abstract要約: 既存のビジョン・アンド・ランゲージナビゲーション(VLN)のアプローチは、主に離散ビューに対するクロスモーダル推論に基づいている。
潜在的な解決策は、離散ビューを統合された鳥眼ビューにマッピングすることで、部分的な観察と重複した観察を集約することができる。
本稿では,長期計画のためのトポロジカルマップと,短期推論のための計量マップを用いて,ハイブリッドトポロジカルマップをVLNに導入する。
- 参考スコア(独自算出の注目度): 75.23388288113817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing approaches for vision-and-language navigation (VLN) are mainly based
on cross-modal reasoning over discrete views. However, this scheme may hamper
an agent's spatial and numerical reasoning because of incomplete objects within
a single view and duplicate observations across views. A potential solution is
mapping discrete views into a unified birds's-eye view, which can aggregate
partial and duplicate observations. Existing metric maps could achieve this
goal, but they suffer from less expressive semantics (e.g. usually predefined
labels) and limited map size, which weakens an agent's language grounding and
long-term planning ability. Inspired by the robotics community, we introduce
hybrid topo-metric maps into VLN, where a topological map is used for long-term
planning and a metric map for short-term reasoning. Beyond mapping with more
expressive deep features, we further design a pre-training framework via the
hybrid map to learn language-informed map representations, which enhances
cross-modal grounding and facilitates the final language-guided navigation
goal. Extensive experiments demonstrate the effectiveness of the map-based
route for VLN, and the proposed method sets the new state-of-the-art on three
VLN benchmarks.
- Abstract(参考訳): 既存のビジョン・アンド・ランゲージナビゲーション(VLN)のアプローチは、主に離散ビューに対するクロスモーダル推論に基づいている。
しかし、このスキームは、単一のビュー内の不完全なオブジェクトと、ビュー間の重複した観察のため、エージェントの空間的および数値的推論を妨げる可能性がある。
潜在的な解決策は、離散ビューを統合された鳥眼ビューにマッピングすることで、部分的および重複的な観察を集約することができる。
既存のメートル法地図はこの目標を達成することができるが、表現力の低い意味論(例えば、通常事前に定義されたラベル)と限られた地図サイズに悩まされ、エージェントの言語基盤と長期計画能力は弱まる。
ロボティクスコミュニティに触発されて,vlnにハイブリッドなトポメトリックマップを導入し,長期計画にトポロジカルマップ,短期推論にメトリックマップが使用される。
より表現力のある深い機能でマッピングする以外に、我々は、言語にインフォームされたマップ表現を学ぶために、ハイブリッドマップを介して事前学習フレームワークを更に設計します。
広汎な実験により,VLNに対するマップベース経路の有効性が示され,提案手法は3つのVLNベンチマークに新たな最先端条件を設定する。
関連論文リスト
- Context-Enhanced Multi-View Trajectory Representation Learning: Bridging the Gap through Self-Supervised Models [27.316692263196277]
MVTrajは、軌道表現学習のための新しい多視点モデリング手法である。
GPSから道路網、関心点まで多様な文脈知識を統合し、軌跡データのより包括的な理解を提供する。
実世界のデータセットに対する大規模な実験により、MVTrajは様々な空間ビューに関連するタスクにおいて、既存のベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-10-17T03:56:12Z) - Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - ENTL: Embodied Navigation Trajectory Learner [37.43079415330256]
エンボディナビゲーションのための長いシーケンス表現を抽出する手法を提案する。
我々は,現在の行動に則った将来の状態のベクトル量子化予測を用いてモデルを訓練する。
提案手法の重要な特徴は、モデルが明示的な報酬信号なしで事前訓練されることである。
論文 参考訳(メタデータ) (2023-04-05T17:58:33Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Cross-modal Map Learning for Vision and Language Navigation [82.04247028482244]
VLN(Vision-and-Language Navigation)の問題点について考察する。
他の研究とは対照的に、我々の重要な洞察は、言語と視覚の関連性は、明示的な空間表現で起こるときに強くなるということである。
視覚・言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案する。このモデルでは,まず,観測領域と観測対象領域の両方に対して,エゴセントリックマップ上のトップダウンセマンティクスを予測することを学習する。
論文 参考訳(メタデータ) (2022-03-10T03:30:12Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - SASRA: Semantically-aware Spatio-temporal Reasoning Agent for
Vision-and-Language Navigation in Continuous Environments [7.5606260987453116]
本稿では,連続3次元環境における視覚・言語ナビゲーション(VLN)タスクに対する新しいアプローチを提案する。
既存のエンド・ツー・エンドの学習手法は、主に生の視覚的観察に焦点を当てているため、この課題に苦慮している。
本稿では,古典的意味マッピング手法と学習に基づく手法を組み合わせることに焦点を当てたハイブリッドトランスフォーマー・リカレンスモデルを提案する。
論文 参考訳(メタデータ) (2021-08-26T17:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。