論文の概要: WenLan: Bridging Vision and Language by Large-Scale Multi-Modal
Pre-Training
- arxiv url: http://arxiv.org/abs/2103.06561v1
- Date: Thu, 11 Mar 2021 09:39:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:39:21.714868
- Title: WenLan: Bridging Vision and Language by Large-Scale Multi-Modal
Pre-Training
- Title(参考訳): wenlan: 大規模マルチモーダル事前学習によるビジョンと言語橋渡し
- Authors: Yuqi Huo, Manli Zhang, Guangzhen Liu, Haoyu Lu, Yizhao Gao, Guoxing
Yang, Jingyuan Wen, Heng Zhang, Baogui Xu, Weihao Zheng, Zongzheng Xi,
Yueqian Yang, Anwen Hu, Jinming Zhao, Ruichen Li, Yida Zhao, Liang Zhang,
Yuqing Song, Xin Hong, Wanqing Cui, Danyang Hou, Yingyan Li, Junyi Li, Peiyu
Liu, Zheng Gong, Chuhao Jin, Yuchong Sun, Shizhe Chen, Zhiwu Lu, Zhicheng
Dou, Qin Jin, Yanyan Lan, Wayne Xin Zhao, Ruihua Song, and Ji-Rong Wen
- Abstract要約: クロスモーダルコントラスト学習フレームワークにおける2タワープリトレーニングモデルを提案する。
OpenAI CLIPとは異なり、最新のメソッドMoCoをクロスモーダルシナリオに適応することで、より高度なアルゴリズムを考案します。
当社のCMCLモデルは、さまざまな下流タスクでUNITERとOpenAI CLIPの両方より優れています。
- 参考スコア(独自算出の注目度): 71.37731379031487
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-modal pre-training models have been intensively explored to bridge
vision and language in recent years. However, most of them explicitly model the
cross-modal interaction between image-text pairs, by assuming that there exists
strong semantic correlation between the text and image modalities. Since this
strong assumption is often invalid in real-world scenarios, we choose to
implicitly model the cross-modal correlation for large-scale multi-modal
pre-training, which is the focus of the Chinese project `WenLan' led by our
team. Specifically, with the weak correlation assumption over image-text pairs,
we propose a two-tower pre-training model within the cross-modal contrastive
learning (CMCL) framework. Unlike OpenAI CLIP that adopts a simple contrastive
learning method, we devise a more advanced algorithm by adapting the latest
method MoCo into the cross-modal scenario. By building a large queue-based
dictionary, our CMCL can incorporate more negative samples in limited GPU
resources. We further construct a large Chinese multi-source image-text dataset
called RUC-CAS-WenLan for pre-training our CMCL model. Extensive experiments
demonstrate that the pre-trained CMCL model outperforms both UNITER and OpenAI
CLIP on various downstream tasks.
- Abstract(参考訳): マルチモーダル事前学習モデルは近年,視覚と言語を橋渡しする試みが盛んに行われている。
しかし、それらのほとんどは、テキストと画像のモダリティの間に強い意味的相関が存在すると仮定して、画像とテキストのペア間の相互モーダル相互作用を明示的にモデル化する。
この強い仮定は実世界のシナリオでは無効であることが多いため、我々のチームが主導する中国のプロジェクト「WenLan」の焦点である大規模マルチモーダル事前学習の相互モーダル相関を暗黙的にモデル化することを選択します。
具体的には,画像とテキストのペアに対する弱い相関仮定を用いて,cmcl(cross-modal contrastive learning)フレームワークにおける2-tower事前学習モデルを提案する。
単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。
大きなキューベースの辞書を構築することで、CMCLは限られたGPUリソースにより負のサンプルを組み込むことができます。
RUC-CAS-WenLanと呼ばれる中国の大規模なマルチソース画像テキストデータセットを構築し、CMCLモデルを事前学習する。
広範な実験は、プリトレーニングされたCMCLモデルが様々な下流タスクでUNITERとOpenAI CLIPの両方を上回っていることを示しています。
関連論文リスト
- RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。
6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-13T14:41:05Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。