論文の概要: E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual
Learning
- arxiv url: http://arxiv.org/abs/2106.01804v2
- Date: Fri, 4 Jun 2021 06:56:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 10:53:15.779281
- Title: E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual
Learning
- Title(参考訳): E2E-VLP:視覚学習により強化されたエンド・ツー・エンド視覚言語事前学習
- Authors: Haiyang Xu, Ming Yan, Chenliang Li, Bin Bi, Songfang Huang, Wenming
Xiao and Fei Huang
- Abstract要約: 本稿では,V+L理解と生成のための視覚言語事前学習モデルを提案する。
視覚表現と画像とテキスト間のセマンティックアライメントを共同で学習するための統合トランスフォーマーフレームワークを構築した。
- 参考スコア(独自算出の注目度): 31.622393984150314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-training (VLP) on large-scale image-text pairs has
achieved huge success for the cross-modal downstream tasks. The most existing
pre-training methods mainly adopt a two-step training procedure, which firstly
employs a pre-trained object detector to extract region-based visual features,
then concatenates the image representation and text embedding as the input of
Transformer to train. However, these methods face problems of using
task-specific visual representation of the specific object detector for generic
cross-modal understanding, and the computation inefficiency of two-stage
pipeline. In this paper, we propose the first end-to-end vision-language
pre-trained model for both V+L understanding and generation, namely E2E-VLP,
where we build a unified Transformer framework to jointly learn visual
representation, and semantic alignments between image and text. We incorporate
the tasks of object detection and image captioning into pre-training with a
unified Transformer encoder-decoder architecture for enhancing visual learning.
An extensive set of experiments have been conducted on well-established
vision-language downstream tasks to demonstrate the effectiveness of this novel
VLP paradigm.
- Abstract(参考訳): 大規模画像テキストペアによる視覚言語事前学習(vlp)は,クロスモーダルダウンストリームタスクで大きな成功を収めている。
最も既存の事前学習法は主に2段階の訓練手順を採用しており、まず、訓練済みの物体検出器を用いて地域ベースの視覚的特徴を抽出し、次にトランスフォーマーの入力として画像表現とテキスト埋め込みを結合する。
しかし、これらの手法は、汎用的なクロスモーダル理解のための特定の物体検出器のタスク固有の視覚表現と、2段階パイプラインの計算効率の低下に直面する。
本稿では,V+Lの理解と生成,すなわちE2E-VLPのための,視覚表現とテキスト間のセマンティックアライメントを協調的に学習する統合トランスフォーマフレームワークを構築するための,最初のエンドツーエンドの視覚言語事前学習モデルを提案する。
物体検出と画像キャプションのタスクを、視覚学習の強化を目的とした統合トランスフォーマーエンコーダデコーダアーキテクチャで事前学習に組み込む。
この新たなVLPパラダイムの有効性を実証するために、十分に確立された視覚言語下流タスクに関する広範な実験が実施されている。
関連論文リスト
- VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - Pre-training image-language transformers for open-vocabulary tasks [53.446599611203474]
本稿では,様々なタスクの混合に基づく視覚・言語トランスフォーマーモデルに対する事前学習手法を提案する。
本稿では,事前学習における画像テキストキャプションデータの利用について検討する。
本研究では,視覚質問応答,視覚的エンターテイメント,キャプションなど,テキスト生成型視覚+言語タスクの手法の評価を行い,標準的な事前学習手法よりも大きな効果を示した。
論文 参考訳(メタデータ) (2022-09-09T16:11:11Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - VL-BEiT: Generative Vision-Language Pretraining [107.25298505511184]
生成前訓練により学習した双方向多モード変換器であるVL-BEiTを提案する。
具体的には、画像テキスト対におけるマスク付き視覚言語モデリング、テキスト上でのマスク付き言語モデリング、画像上でのマスク付き画像モデリングを行う。
論文 参考訳(メタデータ) (2022-06-02T16:14:19Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object
Knowledge Distillation [42.01427946204401]
自己教師付きビジョン・アンド・ランゲージ事前学習は,大規模な画像テキストデータから伝達可能なマルチモーダル表現を学習することを目的としている。
本稿では,CNN から Transformer へのイメージグリッド機能を直接供給し,マルチモーダル表現を協調的に学習するオブジェクト認識型エンドツーエンド QF フレームワークを提案する。
そこで我々は,オブジェクトの特徴とその意味的ラベルを外部検知器から監視することで,2つの新しいプリテキストタスクを設計する。
論文 参考訳(メタデータ) (2021-09-22T03:38:05Z) - SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple
Levels [35.57369098866317]
大規模画像テキストペアによる視覚言語事前学習では,クロスモーダル表現の学習が急速に進展している。
画像とテキストの表現の低レベルと高レベルのセマンティクスを協調的に調整する新しい事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-14T02:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。