論文の概要: VLP: A Survey on Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2202.09061v1
- Date: Fri, 18 Feb 2022 07:54:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 12:49:35.621702
- Title: VLP: A Survey on Vision-Language Pre-training
- Title(参考訳): VLP:ビジョンランゲージ事前トレーニングに関する調査
- Authors: Feilong Chen, Duzhan Zhang, Minglun Han, Xiuyi Chen, Jing Shi, Shuang
Xu, Bo Xu
- Abstract要約: 事前学習モデルの出現は、コンピュータビジョン (CV) や自然言語処理 (NLP) のような一様場を新しい時代にもたらした。
本稿では、画像テキストやビデオテキストの事前学習など、視覚言語事前学習の最近の進歩と新たなフロンティアについて調査する。
- 参考スコア(独自算出の注目度): 23.90900955267937
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the past few years, the emergence of pre-training models has brought
uni-modal fields such as computer vision (CV) and natural language processing
(NLP) to a new era. Substantial works have shown they are beneficial for
downstream uni-modal tasks and avoid training a new model from scratch. So can
such pre-trained models be applied to multi-modal tasks? Researchers have
explored this problem and made significant progress. This paper surveys recent
advances and new frontiers in vision-language pre-training (VLP), including
image-text and video-text pre-training. To give readers a better overall grasp
of VLP, we first review its recent advances from five aspects: feature
extraction, model architecture, pre-training objectives, pre-training datasets,
and downstream tasks. Then, we summarize the specific VLP models in detail.
Finally, we discuss the new frontiers in VLP. To the best of our knowledge,
this is the first survey on VLP. We hope that this survey can shed light on
future research in the VLP field.
- Abstract(参考訳): 過去数年間、事前学習モデルの出現により、コンピュータビジョン(cv)や自然言語処理(nlp)といったユニモーダルな分野が新しい時代を迎えた。
実質的な作業は、下流のユニモーダルなタスクに有用であることを示し、新しいモデルをゼロからトレーニングすることを避けている。
では、事前学習されたモデルはマルチモーダルタスクに適用できるのだろうか?
研究者はこの問題を調査し、大きな進歩を遂げた。
本稿では,視覚言語事前学習(VLP)の最近の進歩と新たなフロンティアについて調査する。
VLPの全体的な理解を深めるために、私たちは最初に、機能抽出、モデルアーキテクチャ、事前学習目標、事前学習データセット、下流タスクの5つの側面から最新の進歩をレビューする。
次に, 具体的なVLPモデルを詳述する。
最後に,VLPの新たなフロンティアについて論じる。
私たちの知る限りでは、VLPに関する最初の調査です。
この調査が今後のVLP分野の研究に光を当てることを願っている。
関連論文リスト
- Large Language Models Meet NLP: A Survey [79.74450825763851]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて印象的な機能を示している。
本研究は,以下の課題を探求することによって,このギャップに対処することを目的とする。
論文 参考訳(メタデータ) (2024-05-21T14:24:01Z) - Medical Vision Language Pretraining: A survey [8.393439175704124]
医療ビジョン言語事前訓練は、医療領域におけるラベル付きデータの不足に対する有望な解決策である。
自己教師付き学習を通じてペア/アンペアの視覚とテキストデータセットを活用することで、モデルは膨大な知識を取得し、堅牢な特徴表現を学ぶように訓練することができる。
論文 参考訳(メタデータ) (2023-12-11T09:14:13Z) - Position-guided Text Prompt for Vision-Language Pre-training [121.15494549650548]
本研究では,ビジョンランゲージ・プレトレーニングで訓練したクロスモーダルモデルの視覚的グラウンド化能力を高めるために,位置誘導型テキストプロンプト(PTP)パラダイムを提案する。
PTPは、与えられたブロック内のオブジェクトを予測したり、与えられたオブジェクトのブロックを後退させたりすることで、PTPが与えられた視覚的グラウンドタスクを補充するブランク問題に再構成する。
PTPはオブジェクト検出をベースとした手法で同等の結果を得るが、PTPがオブジェクト検出を破棄し、後続では不可能になるため、推論速度ははるかに速い。
論文 参考訳(メタデータ) (2022-12-19T18:55:43Z) - VindLU: A Recipe for Effective Video-and-Language Pretraining [83.49216853881595]
本稿では,VidLモデル設計において最も重要な要素を解明する実証的研究を行う。
これらの経験的洞察を用いて、有効なVidL事前学習のためのステップバイステップレシピVindLUを開発した。
提案手法を用いてトレーニングしたモデルは,VidLタスクにおける最先端結果と同等かそれ以上の精度で達成できる。
論文 参考訳(メタデータ) (2022-12-09T18:54:05Z) - Probing Cross-modal Semantics Alignment Capability from the Textual
Perspective [52.52870614418373]
クロスモーダルなセマンティクスの調整は、視覚と言語の事前学習モデルの本質的な能力の1つであると主張されている。
画像キャプションに基づく新しい探索手法を提案し,まずFjordモデルのモーダル間セマンティクスアライメントを実証的に研究する。
論文 参考訳(メタデータ) (2022-10-18T02:55:58Z) - Vision-and-Language Pretraining [19.903012955284698]
本稿では,現代V&L事前学習モデルの総合的な改訂について述べる。
特に、最先端のビジョン・アンド・ランゲージ事前学習モデルの要約とともに、事前学習アプローチの分類とデライン化を行う。
論文 参考訳(メタデータ) (2022-07-05T02:18:49Z) - VL-CheckList: Evaluating Pre-trained Vision-Language Models with
Objects, Attributes and Relations [28.322824790738768]
Vision-Language Pretrainingモデルは、多くのモード間下流タスクを成功に導いた。
既存の作業の多くは、微調整された下流タスクのパフォーマンスを比較することでシステムを評価した。
自然言語処理をテストするためにCheckListにインスパイアされた我々は、新しいフレームワークであるVL-CheckListを利用する。
論文 参考訳(メタデータ) (2022-07-01T06:25:53Z) - A Survey of Vision-Language Pre-Trained Models [41.323956143107644]
事前訓練されたモデルは近年、ブレークネックペースで進歩している。
ビジョン・アンド・ランゲージ学習の分野に事前学習を適応させ、下流タスクのパフォーマンスを向上させる方法は、マルチモーダル学習の焦点となる。
論文 参考訳(メタデータ) (2022-02-18T15:15:46Z) - Recent Advances in Natural Language Processing via Large Pre-Trained
Language Models: A Survey [67.82942975834924]
BERTのような大規模で事前訓練された言語モデルは、自然言語処理(NLP)の分野を大きく変えた。
本稿では,これらの大規模言語モデルを用いたNLPタスクの事前学習,微調整,プロンプト,テキスト生成といった手法を用いた最近の研究について紹介する。
論文 参考訳(メタデータ) (2021-11-01T20:08:05Z) - Pre-trained Models for Natural Language Processing: A Survey [75.95500552357429]
事前学習モデル(PTM)の出現は、自然言語処理(NLP)を新しい時代にもたらした。
この調査は、様々なNLPタスクに対するPTMの理解、利用、開発のためのハンズオンガイドになることを目的としている。
論文 参考訳(メタデータ) (2020-03-18T15:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。