論文の概要: Cross-modal Map Learning for Vision and Language Navigation
- arxiv url: http://arxiv.org/abs/2203.05137v2
- Date: Mon, 14 Mar 2022 03:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 11:26:08.035134
- Title: Cross-modal Map Learning for Vision and Language Navigation
- Title(参考訳): 視覚と言語ナビゲーションのためのクロスモーダルマップ学習
- Authors: Georgios Georgakis, Karl Schmeckpeper, Karan Wanchoo, Soham Dan, Eleni
Miltsakaki, Dan Roth, Kostas Daniilidis
- Abstract要約: VLN(Vision-and-Language Navigation)の問題点について考察する。
他の研究とは対照的に、我々の重要な洞察は、言語と視覚の関連性は、明示的な空間表現で起こるときに強くなるということである。
視覚・言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案する。このモデルでは,まず,観測領域と観測対象領域の両方に対して,エゴセントリックマップ上のトップダウンセマンティクスを予測することを学習する。
- 参考スコア(独自算出の注目度): 82.04247028482244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of Vision-and-Language Navigation (VLN). The majority
of current methods for VLN are trained end-to-end using either unstructured
memory such as LSTM, or using cross-modal attention over the egocentric
observations of the agent. In contrast to other works, our key insight is that
the association between language and vision is stronger when it occurs in
explicit spatial representations. In this work, we propose a cross-modal map
learning model for vision-and-language navigation that first learns to predict
the top-down semantics on an egocentric map for both observed and unobserved
regions, and then predicts a path towards the goal as a set of waypoints. In
both cases, the prediction is informed by the language through cross-modal
attention mechanisms. We experimentally test the basic hypothesis that
language-driven navigation can be solved given a map, and then show competitive
results on the full VLN-CE benchmark.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)の問題点を考察する。
VLNの現在の手法の大部分は、LSTMのような非構造化メモリや、エージェントの自我中心的な観察に対する相互注意を用いて、エンドツーエンドで訓練されている。
他の作品と対照的に、我々の重要な洞察は、言語と視覚の間の関係は、明示的な空間表現において起こるときより強くなるということである。
本研究では,視覚・言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案する。まず,観測領域と観測領域の両方において,エゴセントリックマップ上でトップダウンセマンティクスを予測し,次に目標に向かっての経路をルートポイントの集合として予測する。
どちらの場合も、予測は言語によってクロスモーダルアテンション機構を通じて通知される。
言語駆動ナビゲーションは地図から解けるという基本的な仮説を実験的に検証し、VLN-CEベンチマークで競合結果を示す。
関連論文リスト
- Vision-and-Language Navigation via Causal Learning [13.221880074458227]
クロスモーダル因果変換器(Cross-modal causal transformer, GOAT)は因果推論のパラダイムに根ざした先駆的な解である。
BACLおよびFACLモジュールは、潜在的刺激的相関を包括的に緩和することにより、偏見のない学習を促進する。
グローバルな共同創設者の特徴を捉えるために,コントラスト学習によって教師されるクロスモーダル機能プーリングモジュールを提案する。
論文 参考訳(メタデータ) (2024-04-16T02:40:35Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。