論文の概要: History Aware Multimodal Transformer for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2110.13309v2
- Date: Thu, 17 Aug 2023 22:42:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 20:11:15.195727
- Title: History Aware Multimodal Transformer for Vision-and-Language Navigation
- Title(参考訳): 視覚・言語ナビゲーション用マルチモーダルトランスの履歴認識
- Authors: Shizhe Chen, Pierre-Louis Guhur, Cordelia Schmid, Ivan Laptev
- Abstract要約: ヴィジュアル・アンド・ランゲージナビゲーション(VLN)は、指示に従う自律的な視覚エージェントの構築と、実際のシーンでのナビゲーションを目的としている。
長い水平履歴をマルチモーダルな意思決定に組み込むために,HAMT(History Aware Multimodal Transformer)を導入する。
- 参考スコア(独自算出の注目度): 96.80655332881432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-language navigation (VLN) aims to build autonomous visual agents
that follow instructions and navigate in real scenes. To remember previously
visited locations and actions taken, most approaches to VLN implement memory
using recurrent states. Instead, we introduce a History Aware Multimodal
Transformer (HAMT) to incorporate a long-horizon history into multimodal
decision making. HAMT efficiently encodes all the past panoramic observations
via a hierarchical vision transformer (ViT), which first encodes individual
images with ViT, then models spatial relation between images in a panoramic
observation and finally takes into account temporal relation between panoramas
in the history. It, then, jointly combines text, history and current
observation to predict the next action. We first train HAMT end-to-end using
several proxy tasks including single step action prediction and spatial
relation prediction, and then use reinforcement learning to further improve the
navigation policy. HAMT achieves new state of the art on a broad range of VLN
tasks, including VLN with fine-grained instructions (R2R, RxR), high-level
instructions (R2R-Last, REVERIE), dialogs (CVDN) as well as long-horizon VLN
(R4R, R2R-Back). We demonstrate HAMT to be particularly effective for
navigation tasks with longer trajectories.
- Abstract(参考訳): vision-and-language navigation(vln)は、指示に従って実際のシーンをナビゲートする自律的なビジュアルエージェントを構築することを目的としている。
以前訪れた場所やアクションを思い出すために、vlnのほとんどのアプローチは、リカレント状態を使用してメモリを実装する。
代わりに、長い水平履歴をマルチモーダル意思決定に組み込むために、History Aware Multimodal Transformer (HAMT)を導入する。
HAMTは、まず個々の画像をViTで符号化し、パノラマ観測における画像間の空間的関係をモデル化し、最後に歴史におけるパノラマ間の時間的関係を考慮に入れた階層的視覚変換器(ViT)を介して、過去のパノラマ観測を効率的に符号化する。
そして、テキスト、履歴、現在の観察を共同で組み合わせ、次のアクションを予測する。
まず,single step action predictionとspatial relation predictionを含む複数のプロキシタスクを使用してhamtエンドツーエンドをトレーニングし,さらに強化学習を用いてナビゲーションポリシーをさらに改善する。
HAMTは、細粒度命令付きVLN(R2R, RxR)、高レベル命令(R2R-Last, REVERIE)、ダイアログ(CVDN)、長い水平VLN(R4R, R2R-Back)など、幅広いVLNタスクの新たな状態を達成する。
HAMTは航路を長くしたナビゲーションタスクに特に有効であることを示す。
関連論文リスト
- OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation [96.46961207887722]
OVER-NAVは、現在のIVLN技術を超えることを目指している。
解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
論文 参考訳(メタデータ) (2024-03-26T02:34:48Z) - ESceme: Vision-and-Language Navigation with Episodic Scene Memory [72.69189330588539]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。
本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
論文 参考訳(メタデータ) (2023-03-02T07:42:07Z) - HOP: History-and-Order Aware Pre-training for Vision-and-Language
Navigation [33.38079488853708]
以前のVision-and-Language Navigation (VLN)の事前トレーニング手法には、将来のアクションを予測する能力やコンテキストを無視する能力がない。
本稿では,過去の観測を生かし,今後の行動予測を支援する新しい事前学習パラダイムを提案する。
我々のナビゲーション行動予測は、歴史を伴う行動予測のタスクによって強化される。
論文 参考訳(メタデータ) (2022-03-22T10:17:12Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z) - Know What and Know Where: An Object-and-Room Informed Sequential BERT
for Indoor Vision-Language Navigation [120.90387630691816]
VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアリスティックパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。
既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。
視覚知覚と言語指示を同一のきめ細かいレベルで符号化するオブジェクトインフォームド・シーケンシャルBERTを提案する。
論文 参考訳(メタデータ) (2021-04-09T02:44:39Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。