Fugu-MT 論文翻訳(概要): History Aware Multimodal Transformer for Vision-and-Language Navigation

論文の概要: History Aware Multimodal Transformer for Vision-and-Language Navigation

arxiv url: http://arxiv.org/abs/2110.13309v2
Date: Thu, 17 Aug 2023 22:42:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-21 20:11:15.195727
Title: History Aware Multimodal Transformer for Vision-and-Language Navigation
Title（参考訳）: 視覚・言語ナビゲーション用マルチモーダルトランスの履歴認識
Authors: Shizhe Chen, Pierre-Louis Guhur, Cordelia Schmid, Ivan Laptev
Abstract要約: ヴィジュアル・アンド・ランゲージナビゲーション(VLN)は、指示に従う自律的な視覚エージェントの構築と、実際のシーンでのナビゲーションを目的としている。長い水平履歴をマルチモーダルな意思決定に組み込むために,HAMT(History Aware Multimodal Transformer)を導入する。
参考スコア（独自算出の注目度）: 96.80655332881432
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-and-language navigation (VLN) aims to build autonomous visual agents that follow instructions and navigate in real scenes. To remember previously visited locations and actions taken, most approaches to VLN implement memory using recurrent states. Instead, we introduce a History Aware Multimodal Transformer (HAMT) to incorporate a long-horizon history into multimodal decision making. HAMT efficiently encodes all the past panoramic observations via a hierarchical vision transformer (ViT), which first encodes individual images with ViT, then models spatial relation between images in a panoramic observation and finally takes into account temporal relation between panoramas in the history. It, then, jointly combines text, history and current observation to predict the next action. We first train HAMT end-to-end using several proxy tasks including single step action prediction and spatial relation prediction, and then use reinforcement learning to further improve the navigation policy. HAMT achieves new state of the art on a broad range of VLN tasks, including VLN with fine-grained instructions (R2R, RxR), high-level instructions (R2R-Last, REVERIE), dialogs (CVDN) as well as long-horizon VLN (R4R, R2R-Back). We demonstrate HAMT to be particularly effective for navigation tasks with longer trajectories.
Abstract（参考訳）: vision-and-language navigation(vln)は、指示に従って実際のシーンをナビゲートする自律的なビジュアルエージェントを構築することを目的としている。以前訪れた場所やアクションを思い出すために、vlnのほとんどのアプローチは、リカレント状態を使用してメモリを実装する。代わりに、長い水平履歴をマルチモーダル意思決定に組み込むために、History Aware Multimodal Transformer (HAMT)を導入する。 HAMTは、まず個々の画像をViTで符号化し、パノラマ観測における画像間の空間的関係をモデル化し、最後に歴史におけるパノラマ間の時間的関係を考慮に入れた階層的視覚変換器(ViT)を介して、過去のパノラマ観測を効率的に符号化する。そして、テキスト、履歴、現在の観察を共同で組み合わせ、次のアクションを予測する。まず,single step action predictionとspatial relation predictionを含む複数のプロキシタスクを使用してhamtエンドツーエンドをトレーニングし,さらに強化学習を用いてナビゲーションポリシーをさらに改善する。 HAMTは、細粒度命令付きVLN(R2R, RxR)、高レベル命令(R2R-Last, REVERIE)、ダイアログ(CVDN)、長い水平VLN(R4R, R2R-Back)など、幅広いVLNタスクの新たな状態を達成する。 HAMTは航路を長くしたナビゲーションタスクに特に有効であることを示す。

関連論文リスト

VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文参考訳（メタデータ） (2025-06-20T17:59:59Z)
Aerial Vision-and-Language Navigation with Grid-based View Selection and Map Construction [102.70482302750897]
Aerial Vision-and-Language Navigation (Aerial VLN)は、人間の指示に従って空中3D環境をナビゲートする無人航空機エージェントの取得を目的としている。より長い航法、より複雑な3Dシーン、垂直アクションと水平アクションの相互作用の無視により、従来の手法はうまく機能しない。グリッドベースのビュー選択タスクとして空のVLN動作予測を定式化する,グリッドベースのビュー選択フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-14T05:20:43Z)
OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation [96.46961207887722]
OVER-NAVは、現在のIVLN技術を超えることを目指している。解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
論文参考訳（メタデータ） (2024-03-26T02:34:48Z)
ESceme: Vision-and-Language Navigation with Episodic Scene Memory [72.69189330588539]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
論文参考訳（メタデータ） (2023-03-02T07:42:07Z)
HOP: History-and-Order Aware Pre-training for Vision-and-Language Navigation [33.38079488853708]
以前のVision-and-Language Navigation (VLN)の事前トレーニング手法には、将来のアクションを予測する能力やコンテキストを無視する能力がない。本稿では,過去の観測を生かし,今後の行動予測を支援する新しい事前学習パラダイムを提案する。我々のナビゲーション行動予測は、歴史を伴う行動予測のタスクによって強化される。
論文参考訳（メタデータ） (2022-03-22T10:17:12Z)
Multimodal Transformer with Variable-length Memory for Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文参考訳（メタデータ） (2021-11-10T16:04:49Z)
Know What and Know Where: An Object-and-Room Informed Sequential BERT for Indoor Vision-Language Navigation [120.90387630691816]
VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアリスティックパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。視覚知覚と言語指示を同一のきめ細かいレベルで符号化するオブジェクトインフォームド・シーケンシャルBERTを提案する。
論文参考訳（メタデータ） (2021-04-09T02:44:39Z)
Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。ナビゲーション中に知覚を正確に記憶できるほど区画化されている。また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文参考訳（メタデータ） (2021-03-05T03:41:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。