論文の概要: A Recurrent Vision-and-Language BERT for Navigation
- arxiv url: http://arxiv.org/abs/2011.13922v2
- Date: Sun, 28 Mar 2021 11:45:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 09:12:47.007148
- Title: A Recurrent Vision-and-Language BERT for Navigation
- Title(参考訳): ナビゲーションのための反復的視覚言語bert
- Authors: Yicong Hong, Qi Wu, Yuankai Qi, Cristian Rodriguez-Opazo, Stephen
Gould
- Abstract要約: 本稿では,視覚・言語ナビゲーションにおける時間認識型BERTモデルを提案する。
我々のモデルは、より複雑なエンコーダデコーダモデルを置き換えることで、最先端の結果が得られる。
- 参考スコア(独自算出の注目度): 54.059606864535304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accuracy of many visiolinguistic tasks has benefited significantly from the
application of vision-and-language(V&L) BERT. However, its application for the
task of vision-and-language navigation (VLN) remains limited. One reason for
this is the difficulty adapting the BERT architecture to the partially
observable Markov decision process present in VLN, requiring history-dependent
attention and decision making. In this paper we propose a recurrent BERT model
that is time-aware for use in VLN. Specifically, we equip the BERT model with a
recurrent function that maintains cross-modal state information for the agent.
Through extensive experiments on R2R and REVERIE we demonstrate that our model
can replace more complex encoder-decoder models to achieve state-of-the-art
results. Moreover, our approach can be generalised to other transformer-based
architectures, supports pre-training, and is capable of solving navigation and
referring expression tasks simultaneously.
- Abstract(参考訳): 多くの視覚言語的タスクの精度は、視覚言語(V&L) BERT の応用から大きな恩恵を受けている。
しかし,視覚・言語ナビゲーション(VLN)への応用は依然として限られている。
この理由の1つは、BERTアーキテクチャを部分的に観測可能なマルコフ決定プロセスに適合させることが困難であることであり、歴史に依存した注意と意思決定が必要である。
本稿では,vln で使用する時間に着目した再帰的 bert モデルを提案する。
具体的には、エージェントのクロスモーダル状態情報を保持する再帰関数をBERTモデルに装備する。
R2RとREVERIEに関する広範な実験を通じて、我々のモデルはより複雑なエンコーダデコーダモデルを置き換えて最先端の結果が得られることを示した。
さらに,本手法を他のトランスフォーマーアーキテクチャに一般化し,事前学習をサポートし,ナビゲーションと表現タスクの同時参照を可能とした。
関連論文リスト
- Vision-and-Language Navigation Generative Pretrained Transformer [0.0]
VLN-GPT(Vision-and-Language Navigation Generative Pretrained Transformer)
トランスフォーマーデコーダモデル(GPT2)を採用してトラジェクトリシーケンスの依存関係をモデル化し、歴史的エンコーディングモジュールの必要性を回避している。
VLNデータセットのパフォーマンス評価は、VLN-GPTが複雑な最先端エンコーダベースモデルを上回ることを示している。
論文 参考訳(メタデータ) (2024-05-27T09:42:04Z) - OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation [96.46961207887722]
OVER-NAVは、現在のIVLN技術を超えることを目指している。
解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
論文 参考訳(メタデータ) (2024-03-26T02:34:48Z) - PASTS: Progress-Aware Spatio-Temporal Transformer Speaker For
Vision-and-Language Navigation [6.11362142120604]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、重要な、しかし困難なクロスモーダル・ナビゲーションタスクである。
VLNの性能を高める強力な手法の1つは、データ拡張のための擬似命令を提供する独立話者モデルを使用することである。
本稿では,ネットワークのコアとしてトランスフォーマーを用いるPASTSモデルを提案する。
論文 参考訳(メタデータ) (2023-05-19T02:25:56Z) - Local Slot Attention for Vision-and-Language Navigation [30.705802302315785]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、コンピュータビジョンと自然言語処理コミュニティにおいてホットな話題である。
同一オブジェクトのセグメンテーションからの情報を取り込むためのスロットアテンションに基づくモジュールを提案する。
R2Rデータセットの実験は、我々のモデルが最先端の結果を達成したことを示している。
論文 参考訳(メタデータ) (2022-06-17T09:21:26Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z) - Updater-Extractor Architecture for Inductive World State Representations [0.0]
トランスベースのUpdater-Extractorアーキテクチャと任意の長さのシーケンスで動作するトレーニング手順を提案する。
入ってくる情報をその世界状態表現に組み込むようにモデルを明確に訓練します。
実証的には、3つの異なるタスクでモデルのパフォーマンスを調査し、その約束を示しています。
論文 参考訳(メタデータ) (2021-04-12T14:30:11Z) - VisBERT: Hidden-State Visualizations for Transformers [66.86452388524886]
VisBERTは,複数の質問応答のタスクに対して,BERT内のコンテキストトークン表現を可視化するツールである。
VisBERTは、モデルの内部状態に関する洞察を得て、推論ステップや潜在的な欠点を探索することを可能にする。
論文 参考訳(メタデータ) (2020-11-09T15:37:43Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。