論文の概要: Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training
- arxiv url: http://arxiv.org/abs/2002.10638v2
- Date: Sun, 5 Apr 2020 03:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 20:26:57.658134
- Title: Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training
- Title(参考訳): 事前学習による視覚・言語ナビゲーションのためのジェネリックエージェントの学習
- Authors: Weituo Hao, Chunyuan Li, Xiujun Li, Lawrence Carin, Jianfeng Gao
- Abstract要約: 視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
- 参考スコア(独自算出の注目度): 150.35927365127176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to navigate in a visual environment following natural-language
instructions is a challenging task, because the multimodal inputs to the agent
are highly variable, and the training data on a new task is often limited. In
this paper, we present the first pre-training and fine-tuning paradigm for
vision-and-language navigation (VLN) tasks. By training on a large amount of
image-text-action triplets in a self-supervised learning manner, the
pre-trained model provides generic representations of visual environments and
language instructions. It can be easily used as a drop-in for existing VLN
frameworks, leading to the proposed agent called Prevalent. It learns more
effectively in new tasks and generalizes better in a previously unseen
environment. The performance is validated on three VLN tasks. On the
Room-to-Room benchmark, our model improves the state-of-the-art from 47% to 51%
on success rate weighted by path length. Further, the learned representation is
transferable to other VLN tasks. On two recent tasks, vision-and-dialog
navigation and "Help, Anna!" the proposed Prevalent leads to significant
improvement over existing methods, achieving a new state of the art.
- Abstract(参考訳): エージェントへのマルチモーダル入力は非常に可変であり、新しいタスクのトレーニングデータに制限があるため、自然言語による指示に従って視覚環境をナビゲートする学習は難しい課題である。
本稿では,視覚言語ナビゲーション(vln)タスクのための最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方法で大量の画像-テキスト-アクション三重項をトレーニングすることで、事前学習されたモデルは、視覚環境と言語指示の汎用表現を提供する。
既存のVLNフレームワークのドロップインとして簡単に使用できるため、Prevalentと呼ばれるエージェントが提案されている。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより一般化する。
性能は3つのVLNタスクで検証される。
Room-to-Roomベンチマークでは,パス長で重み付けられた成功率に対して,最先端の47%から51%に改善した。
さらに、学習された表現は他のVLNタスクに転送可能である。
ビジョン・アンド・ダイアログナビゲーションと "help, anna!" という2つの最近のタスクでは,提案手法が既存の方法よりも大幅に改善され,新たな最先端のアートが実現されている。
関連論文リスト
- Learning without Forgetting for Vision-Language Models [65.49600786387106]
CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。
VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。
本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:59:32Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Unified Multimodal Pre-training and Prompt-based Tuning for
Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。
提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。
実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文 参考訳(メタデータ) (2021-12-10T14:59:06Z) - Curriculum Learning for Vision-and-Language Navigation [16.695511663714214]
VLN(Vision-and-Language Navigation)は、エージェントが人間の指示で室内環境をナビゲートするタスクである。
従来の研究はサンプルの難易度分布を無視しており、エージェントの性能を低下させる可能性があると論じている。
本稿では,人間の事前知識とエージェント学習の進捗をバランスさせる,VLNタスクのためのカリキュラムベースの新しいトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2021-11-14T03:02:07Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。