論文の概要: Vision-and-Language Pretrained Models: A Survey
- arxiv url: http://arxiv.org/abs/2204.07356v1
- Date: Fri, 15 Apr 2022 07:33:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-18 14:41:20.245778
- Title: Vision-and-Language Pretrained Models: A Survey
- Title(参考訳): ビジョン・アンド・ランゲージ事前訓練モデル:サーベイ
- Authors: Siqu Long, Feiqi Cao, Soyeon Caren Han, Haiqing Yang
- Abstract要約: 本稿では,視覚言語事前学習モデルにおける主要な進歩について概説する。
まず、言語と視覚データエンコーディング法について論じ、次に主流のVLPM構造をコアコンテンツとして提示する。
- 参考スコア(独自算出の注目度): 3.270244666687303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained models have produced great success in both Computer Vision (CV)
and Natural Language Processing (NLP). This progress leads to learning joint
representations of vision and language pretraining by feeding visual and
linguistic contents into a multi-layer transformer, Visual-Language Pretrained
Models (VLPMs). In this paper, we present an overview of the major advances
achieved in VLPMs for producing joint representations of vision and language.
As the preliminaries, we briefly describe the general task definition and
genetic architecture of VLPMs. We first discuss the language and vision data
encoding methods and then present the mainstream VLPM structure as the core
content. We further summarise several essential pretraining and fine-tuning
strategies. Finally, we highlight three future directions for both CV and NLP
researchers to provide insightful guidance.
- Abstract(参考訳): 事前訓練されたモデルはコンピュータビジョン(CV)と自然言語処理(NLP)の両方で大きな成功を収めた。
この進歩は、視覚および言語コンテンツを多層トランスフォーマー、視覚言語予備訓練モデル(vlpms)に供給することにより、視覚と言語事前訓練の合同表現を学習する。
本稿では,視覚と言語を共同で表現するためのvlpmsにおける大きな進歩について概観する。
本稿では,VLPMの一般的なタスク定義と遺伝的構造について概説する。
まず、言語と視覚データエンコーディング法について議論し、主要なVLPM構造をコアコンテンツとして提示する。
我々はさらに、いくつかの重要な事前訓練および微調整戦略を要約する。
最後に,CVとNLPの研究者が洞察に富むガイダンスを提供するための3つの今後の方向性を強調した。
関連論文リスト
- Driving Referring Video Object Segmentation with Vision-Language Pre-trained Models [34.37450315995176]
現在のRVOSメソッドは一般的に、バックボーンとして独立して事前訓練された視覚と言語モデルを使用する。
画素レベルの予測に事前学習した表現を適応させる時間認識型プロンプトチューニング手法を提案する。
提案手法は最先端のアルゴリズムより優れ,強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-17T08:14:22Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - A Survey of Vision-Language Pre-training from the Lens of Multimodal
Machine Translation [13.426403221815063]
本稿では,マルチモーダル機械翻訳のレンズによる言語とビジョンの事前学習の状況について調査する。
我々は、共通アーキテクチャ、事前学習目的、文献からのデータセットを要約し、マルチモーダル機械翻訳の進展に何が必要かを推測する。
論文 参考訳(メタデータ) (2023-06-12T15:56:10Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Vision-and-Language Pretraining [19.903012955284698]
本稿では,現代V&L事前学習モデルの総合的な改訂について述べる。
特に、最先端のビジョン・アンド・ランゲージ事前学習モデルの要約とともに、事前学習アプローチの分類とデライン化を行う。
論文 参考訳(メタデータ) (2022-07-05T02:18:49Z) - VL-BEiT: Generative Vision-Language Pretraining [107.25298505511184]
生成前訓練により学習した双方向多モード変換器であるVL-BEiTを提案する。
具体的には、画像テキスト対におけるマスク付き視覚言語モデリング、テキスト上でのマスク付き言語モデリング、画像上でのマスク付き画像モデリングを行う。
論文 参考訳(メタデータ) (2022-06-02T16:14:19Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Vision-Language Intelligence: Tasks, Representation Learning, and Large
Models [32.142076223602906]
本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。
本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
論文 参考訳(メタデータ) (2022-03-03T18:54:59Z) - A Survey of Vision-Language Pre-Trained Models [41.323956143107644]
事前訓練されたモデルは近年、ブレークネックペースで進歩している。
ビジョン・アンド・ランゲージ学習の分野に事前学習を適応させ、下流タスクのパフォーマンスを向上させる方法は、マルチモーダル学習の焦点となる。
論文 参考訳(メタデータ) (2022-02-18T15:15:46Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。