論文の概要: A Survey of Vision-Language Pre-Trained Models
- arxiv url: http://arxiv.org/abs/2202.10936v1
- Date: Fri, 18 Feb 2022 15:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 14:23:08.109866
- Title: A Survey of Vision-Language Pre-Trained Models
- Title(参考訳): 視覚言語事前学習モデルの検討
- Authors: Yifan Du, Zikang Liu, Junyi Li, Wayne Xin Zhao
- Abstract要約: 事前訓練されたモデルは近年、ブレークネックペースで進歩している。
ビジョン・アンド・ランゲージ学習の分野に事前学習を適応させ、下流タスクのパフォーマンスを向上させる方法は、マルチモーダル学習の焦点となる。
- 参考スコア(独自算出の注目度): 41.323956143107644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Transformer evolved, pre-trained models have advanced at a breakneck pace
in recent years. They have dominated the mainstream techniques in natural
language processing (NLP) and computer vision (CV). How to adapt pre-training
to the field of Vision-and-Language (V-L) learning and improve the performance
on downstream tasks becomes a focus of multimodal learning. In this paper, we
review the recent progress in Vision-Language Pre-Trained Models (VL-PTMs). As
the core content, we first briefly introduce several ways to encode raw images
and texts to single-modal embeddings before pre-training. Then, we dive into
the mainstream architectures of VL-PTMs in modeling the interaction between
text and image representations. We further present widely-used pre-training
tasks, after which we introduce some common downstream tasks. We finally
conclude this paper and present some promising research directions. Our survey
aims to provide multimodal researchers a synthesis and pointer to related
research.
- Abstract(参考訳): Transformerが進化するにつれて、事前訓練されたモデルは近年、ブレークネックペースで進化している。
それらは自然言語処理(NLP)とコンピュータビジョン(CV)において主要な技術を支配してきた。
ビジョン・アンド・ランゲージ(V-L)学習の分野への事前学習の適応と下流タスクのパフォーマンス向上がマルチモーダル学習の焦点となる。
本稿では,VL-PTM(Vision-Language Pre-Trained Models)の最近の進歩を概観する。
コアコンテンツとして、事前学習前に生画像とテキストを単一のモーダル埋め込みにエンコードする方法をいくつか紹介する。
次に,テキストと画像表現の相互作用をモデル化する上で,VL-PTMの主流アーキテクチャについて検討する。
さらに,広く使用されている事前学習タスクを提示し,その後,共通するダウンストリームタスクを紹介する。
最後に本論文をまとめ,有望な研究の方向性について述べる。
本調査は,マルチモーダル研究者に関連研究の合成とポインタを提供することを目的としている。
関連論文リスト
- VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - A Survey of Vision-Language Pre-training from the Lens of Multimodal
Machine Translation [13.426403221815063]
本稿では,マルチモーダル機械翻訳のレンズによる言語とビジョンの事前学習の状況について調査する。
我々は、共通アーキテクチャ、事前学習目的、文献からのデータセットを要約し、マルチモーダル機械翻訳の進展に何が必要かを推測する。
論文 参考訳(メタデータ) (2023-06-12T15:56:10Z) - Vision-and-Language Pretraining [19.903012955284698]
本稿では,現代V&L事前学習モデルの総合的な改訂について述べる。
特に、最先端のビジョン・アンド・ランゲージ事前学習モデルの要約とともに、事前学習アプローチの分類とデライン化を行う。
論文 参考訳(メタデータ) (2022-07-05T02:18:49Z) - VL-BEiT: Generative Vision-Language Pretraining [107.25298505511184]
生成前訓練により学習した双方向多モード変換器であるVL-BEiTを提案する。
具体的には、画像テキスト対におけるマスク付き視覚言語モデリング、テキスト上でのマスク付き言語モデリング、画像上でのマスク付き画像モデリングを行う。
論文 参考訳(メタデータ) (2022-06-02T16:14:19Z) - Vision-and-Language Pretrained Models: A Survey [3.270244666687303]
本稿では,視覚言語事前学習モデルにおける主要な進歩について概説する。
まず、言語と視覚データエンコーディング法について論じ、次に主流のVLPM構造をコアコンテンツとして提示する。
論文 参考訳(メタデータ) (2022-04-15T07:33:06Z) - Vision-Language Intelligence: Tasks, Representation Learning, and Large
Models [32.142076223602906]
本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。
本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
論文 参考訳(メタデータ) (2022-03-03T18:54:59Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。