論文の概要: Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment
- arxiv url: http://arxiv.org/abs/2203.00242v1
- Date: Tue, 1 Mar 2022 05:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 13:02:05.648557
- Title: Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment
- Title(参考訳): 検索に基づくマルチグラニュラーアライメントによる教師なし視覚・言語事前学習
- Authors: Mingyang Zhou, Licheng Yu, Amanpreet Singh, Mengjiao Wang, Zhou Yu,
Ning Zhang
- Abstract要約: 非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
- 参考スコア(独自算出の注目度): 66.77841319057299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language (V+L) pre-training models have achieved tremendous
success in recent years on various multi-modal benchmarks. However, the
majority of existing models require pre-training on a large set of parallel
image-text data, which is costly to collect, compared to image-only or
text-only data. In this paper, we explore unsupervised Vision-and-Language
pre-training (UVLP) to learn the cross-modal representation from non-parallel
image and text datasets. We found two key factors that lead to good
unsupervised V+L pre-training without parallel data: (i) joint image-and-text
input (ii) overall image-text alignment (even for non-parallel data).
Accordingly, we propose a novel unsupervised V+L pre-training curriculum for
non-parallel texts and images. We first construct a weakly aligned image-text
corpus via a retrieval-based approach, then apply a set of multi-granular
alignment pre-training tasks, including region-to-tag, region-to-phrase, and
image-to-sentence alignment, to bridge the gap between the two modalities. A
comprehensive ablation study shows each granularity is helpful to learn a
stronger pre-trained model. We adapt our pre-trained model to a set of V+L
downstream tasks, including VQA, NLVR2, Visual Entailment, and RefCOCO+. Our
model achieves the state-of-art performance in all these tasks under the
unsupervised setting.
- Abstract(参考訳): ビジョン・アンド・ランゲージ(v+l)事前学習モデルは近年、様々なマルチモーダルベンチマークで大きな成功を収めている。
しかし、既存のモデルのほとんどは、画像のみまたはテキストのみのデータと比較して、収集にコストがかかる大量の画像テキストデータに対して事前トレーニングを必要とする。
本稿では、非並列画像とテキストデータセットから、非教師なしビジョン・アンド・ランゲージ事前学習(UVLP)を学習する。
良質な教師なしV+L事前学習に繋がる2つの要因を並列データなしで発見する。
(i)共同画像・テキスト入力
(ii)画像テキストのアライメント(非並列データに対しても)。
そこで本稿では,非並列テキストと画像のための教師なしV+L事前学習カリキュラムを提案する。
まず,検索に基づくアプローチにより,弱アライメントされた画像テキストコーパスを構築し,次に,領域間アライメント,領域間アライメント,画像間アライメントなどの多面的アライメントプリトレーニングタスクを適用し,この2つのモダリティ間のギャップを橋渡しする。
包括的アブレーション研究は、各粒度がより強い事前学習モデルを学ぶのに役立つことを示した。
我々は、VQA、NLVR2、Visual Entailment、RefCOCO+を含むV+L下流タスクに事前学習したモデルを適用する。
本モデルでは,教師なし環境下での全てのタスクにおいて,最先端の性能を実現する。
関連論文リスト
- Weakly Supervised Vision-and-Language Pre-training with Relative
Representations [76.63610760577214]
弱教師付き視覚・言語事前学習は、事前学習のデータコストを効果的に削減することを示した。
現在の手法では、イメージのローカル記述(オブジェクトタグ)のみをクロスモーダルアンカーとして使用し、事前トレーニングのための弱い整列されたイメージテキストペアを構築する。
論文 参考訳(メタデータ) (2023-05-24T18:10:24Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。
私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文 参考訳(メタデータ) (2022-10-04T16:56:22Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - WenLan: Bridging Vision and Language by Large-Scale Multi-Modal
Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。
単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。
大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文 参考訳(メタデータ) (2021-03-11T09:39:49Z) - Unsupervised Vision-and-Language Pre-training Without Parallel Images
and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。
特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。
4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文 参考訳(メタデータ) (2020-10-24T08:17:54Z) - ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised
Image-Text Data [9.3935916515127]
画像-テキスト共同埋め込みのための視覚教師付き事前学習モデルである ImageBERT を導入する。
我々のモデルはTransformerベースのモデルであり、入力として異なるモダリティを取り、それらの関係をモデル化する。
論文 参考訳(メタデータ) (2020-01-22T11:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。