論文の概要: Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2111.05759v1
- Date: Wed, 10 Nov 2021 16:04:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 15:00:46.783703
- Title: Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation
- Title(参考訳): 視覚・言語ナビゲーションのための可変長メモリ付きマルチモーダルトランス
- Authors: Chuang Lin, Yi Jiang, Jianfei Cai, Lizhen Qu, Gholamreza Haffari,
Zehuan Yuan
- Abstract要約: VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
- 参考スコア(独自算出の注目度): 79.1669476932147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) is a task that an agent is required to
follow a language instruction to navigate to the goal position, which relies on
the ongoing interactions with the environment during moving. Recent
Transformer-based VLN methods have made great progress benefiting from the
direct connections between visual observations and the language instruction via
the multimodal cross-attention mechanism. However, these methods usually
represent temporal context as a fixed-length vector by using an LSTM decoder or
using manually designed hidden states to build a recurrent Transformer.
Considering a single fixed-length vector is often insufficient to capture
long-term temporal context, in this paper, we introduce Multimodal Transformer
with Variable-length Memory (MTVM) for visually-grounded natural language
navigation by modelling the temporal context explicitly. Specifically, MTVM
enables the agent to keep track of the navigation trajectory by directly
storing previous activations in a memory bank. To further boost the
performance, we propose a memory-aware consistency loss to help learn a better
joint representation of temporal context with random masked instructions. We
evaluate MTVM on popular R2R and CVDN datasets, and our model improves Success
Rate on R2R unseen validation and test set by 2% each, and reduce Goal Process
by 1.6m on CVDN test set.
- Abstract(参考訳): 視覚言語ナビゲーション(英語: vision-and-language navigation、略称:vln)は、エージェントが目標位置へ移動するために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,マルチモーダル・クロスアテンション機構による視覚観察と言語指導の直接的な接続により,大きな進歩を遂げている。
しかし、これらの手法は通常、LSTMデコーダを使ったり、手動で設計された隠れ状態を使って繰り返し変換器を構築することで、時間的コンテキストを固定長ベクトルとして表現する。
本稿では,時間的文脈を明示的にモデル化し,視覚的に接地自然言語ナビゲーションを行うための可変長メモリ(mtvm)を用いたマルチモーダルトランスフォーマを提案する。
特に、mtvmは、エージェントが以前のアクティベーションを直接メモリバンクに保存することで、ナビゲーションの追跡を可能にする。
性能をさらに高めるために,ランダムマスキング命令を用いた時空間の協調表現の学習を支援するメモリアウェア一貫性損失を提案する。
一般的なR2RおよびCVDNデータセット上でMTVMを評価し,R2Rにおける成功率を2%向上させ,CVDNテストセット上でのゴールプロセスの1.6m削減を実現した。
関連論文リスト
- Temporal-Enhanced Multimodal Transformer for Referring Multi-Object Tracking and Segmentation [28.16053631036079]
Referring Multi-object Tracking (RMOT)は、ビデオ中の任意の数の対象物を見つけることを目的とした、新たなクロスモーダルタスクである。
本稿では, Transformer アーキテクチャの利点を活用するために TenRMOT と呼ばれる小型トランスフォーマー方式を提案する。
TenRMOTは参照マルチオブジェクト追跡とセグメンテーションタスクの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-17T11:07:05Z) - Bidirectional Correlation-Driven Inter-Frame Interaction Transformer for
Referring Video Object Segmentation [44.952526831843386]
RVOSにおけるこれらの問題に対処するために,BIFITと呼ばれる相関駆動のフレーム間相互作用変換器を提案する。
具体的には、デコーダ内の軽量なプラグアンドプレイフレーム間相互作用モジュールを設計する。
視覚的特徴と言語的特徴の相関を容易にするために、トランスフォーマーの前に視覚フェリング相互作用が実装される。
論文 参考訳(メタデータ) (2023-07-02T10:29:35Z) - Referred by Multi-Modality: A Unified Temporal Transformer for Video
Object Segmentation [54.58405154065508]
ビデオオブジェクトセグメンテーションの参照のためのマルチモーダル統一時間変換器を提案する。
MUTRは、初めて統合されたフレームワークにより、DETRスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照によって指定されたビデオオブジェクトをセグメント化することができる。
変換器以降の高レベルの時間的相互作用に対して,異なるオブジェクト埋め込みのためのフレーム間特徴通信を行い,ビデオに沿って追跡するためのオブジェクトワイズ対応の改善に寄与する。
論文 参考訳(メタデータ) (2023-05-25T17:59:47Z) - MV-Adapter: Multimodal Video Transfer Learning for Video Text Retrieval [60.454321238910474]
最先端のビデオテキスト検索手法は、通常、特定のデータセット上で事前訓練されたモデルを完全に微調整する。
本稿では,事前学習モデルを用いてパラメータ効率の高いVTRを実現する先駆的手法を提案する。
本稿では,Multimodal Video Adapter (MV-Adapter) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-19T03:42:56Z) - Reinforced Structured State-Evolution for Vision-Language Navigation [42.46176089721314]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)タスクは、自然言語の指示に従って遠隔地へ移動するための実施エージェントを必要とする。
従来の手法は通常、シークエンスモデル(TransformerやLSTMなど)をナビゲータとして採用していた。
本稿では,VLNの環境レイアウトの手がかりを効果的に維持するために,構造化状態進化(SEvol)モデルを提案する。
論文 参考訳(メタデータ) (2022-04-20T07:51:20Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - History Aware Multimodal Transformer for Vision-and-Language Navigation [96.80655332881432]
ヴィジュアル・アンド・ランゲージナビゲーション(VLN)は、指示に従う自律的な視覚エージェントの構築と、実際のシーンでのナビゲーションを目的としている。
長い水平履歴をマルチモーダルな意思決定に組み込むために,HAMT(History Aware Multimodal Transformer)を導入する。
論文 参考訳(メタデータ) (2021-10-25T22:54:41Z) - Learning to Combine the Modalities of Language and Video for Temporal
Moment Localization [4.203274985072923]
時間的モーメントローカライゼーションは、クエリによって指定されたモーメントにマッチする最適なビデオセグメントを検索することを目的としている。
本稿では,時間的モーメントを局所化する認知過程を模倣して,新たな繰り返し単位であるクロスモーダル長短期記憶(CM-LSTM)を導入する。
また、入出力クエリーにより、入出力された映像特徴と未入出力映像特徴の両方に対する2ストリームの注意機構を考案し、必要な視覚情報が無視されるのを防ぐ。
論文 参考訳(メタデータ) (2021-09-07T08:25:45Z) - Dynamic Context-guided Capsule Network for Multimodal Machine
Translation [131.37130887834667]
マルチモーダル機械翻訳(MMT)は主にテキストのみの翻訳と視覚的特徴の強化に焦点を当てている。
MMTのための新しい動的コンテキスト誘導カプセルネットワーク(DCCN)を提案する。
英語・ドイツ語・英語・フランス語のMulti30Kデータセットによる実験結果から,DCCNの優位性が確認された。
論文 参考訳(メタデータ) (2020-09-04T06:18:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。