論文の概要: WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models
- arxiv url: http://arxiv.org/abs/2203.11480v1
- Date: Tue, 22 Mar 2022 06:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 05:00:05.133243
- Title: WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models
- Title(参考訳): wudaomm:事前トレーニングモデルのための大規模マルチモーダルデータセット
- Authors: Sha Yuan, Zhao Shuai, Leng Jiahong, Xue Zhao, Zhao Hanyu and Tang Jie
- Abstract要約: 我々はWuDaoMMという大規模マルチモーダルコーパスを導入し、6億5000万以上の画像テキストペアを網羅した。
画像とキャプションの相関が弱い複数のWebページから、約6億のデータを収集する。
また、WuDaoMMのベースバージョンを500万の強相関画像テキストペアでリリースし、一般的なクロスモーダルモデル事前トレーニングをサポートするのに十分です。
- 参考スコア(独自算出の注目度): 2.603259641572195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compared with the domain-specific model, the vision-language pre-training
models (VLPMs) have shown superior performance on downstream tasks with fast
fine-tuning process. For example, ERNIE-ViL, Oscar and UNIMO trained VLPMs with
a uniform transformers stack architecture and large amounts of image-text
paired data, achieving remarkable results on downstream tasks such as
image-text reference(IR and TR), vision question answering (VQA) and image
captioning (IC) etc. During the training phase, VLPMs are always fed with a
combination of multiple public datasets to meet the demand of large-scare
training data. However, due to the unevenness of data distribution including
size, task type and quality, using the mixture of multiple datasets for model
training can be problematic. In this work, we introduce a large-scale
multi-modal corpora named WuDaoMM, totally containing more than 650M image-text
pairs. Specifically, about 600 million pairs of data are collected from
multiple webpages in which image and caption present weak correlation, and the
other 50 million strong-related image-text pairs are collected from some
high-quality graphic websites. We also release a base version of WuDaoMM with 5
million strong-correlated image-text pairs, which is sufficient to support the
common cross-modal model pre-training. Besides, we trained both an
understanding and a generation vision-language (VL) model to test the dataset
effectiveness. The results show that WuDaoMM can be applied as an efficient
dataset for VLPMs, especially for the model in text-to-image generation task.
The data is released at https://data.wudaoai.cn
- Abstract(参考訳): ドメイン固有モデルと比較して、視覚言語事前学習モデル(VLPM)は、高速な微調整プロセスで下流タスクにおいて優れた性能を示す。
例えば、ERNIE-ViL、Oscar、UNIMOは、均一なトランスフォーマースタックアーキテクチャと大量の画像テキストペアデータでVLPMを訓練し、画像テキスト参照(IRとTR)、視覚質問応答(VQA)、画像キャプション(IC)などの下流タスクで顕著な結果を得た。
トレーニングフェーズの間、VLPMは常に、大規模なケアトレーニングデータの要求を満たすために、複数のパブリックデータセットの組み合わせで供給されます。
しかし、サイズ、タスクタイプ、品質などのデータ分散の不均一さのため、モデルトレーニングに複数のデータセットを混在させることは問題となる。
本稿では,650万以上の画像テキストペアを含む大規模マルチモーダルコーパスwudaommを提案する。
具体的には、画像とキャプションの相関が弱い複数のWebページから約6億のデータを収集し、他の5000万の強い関連画像テキストペアを高品質なグラフィックWebサイトから収集する。
また、WuDaoMMのベースバージョンを500万の強相関画像テキストペアでリリースし、一般的なクロスモーダルモデル事前トレーニングをサポートするのに十分です。
さらに、データセットの有効性をテストするために、理解と世代視覚言語(VL)モデルの両方を訓練した。
その結果,WuDaoMM は VLPM の効率的なデータセットとして,特にテキスト・画像生成タスクにおけるモデルに適用可能であることがわかった。
データはhttps://data.wudaoai.cnで公開される
関連論文リスト
- VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。
データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文 参考訳(メタデータ) (2024-06-13T16:40:39Z) - Sieve: Multimodal Dataset Pruning Using Image Captioning Models [11.362835828985494]
Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。
そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
論文 参考訳(メタデータ) (2023-10-03T14:53:53Z) - RS5M and GeoRSCLIP: A Large Scale Vision-Language Dataset and A Large
Vision-Language Model for Remote Sensing [26.71560933421903]
我々は、DVLM(Domain Pre-trained Vision-Language Model)を含む新しいフレームワークを提案する。
リモートセンシング(RS)分野における画像とテキストのペア化データセットであるRS5Mについて述べる。
論文 参考訳(メタデータ) (2023-06-20T05:30:59Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - LAION-5B: An open large-scale dataset for training next generation
image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。
このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。
また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文 参考訳(メタデータ) (2022-10-16T00:08:18Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - KNN-Diffusion: Image Generation via Large-Scale Retrieval [40.6656651653888]
適応する学習は、いくつかの新しい機能を可能にします。
微調整の訓練されたモデルと新しいサンプルは、単にテーブルに追加するだけで実現できる。
我々の拡散モデルでは、共同のテキスト・イメージ・マルチモーダル・メトリックを利用することで、画像のみを訓練する。
論文 参考訳(メタデータ) (2022-04-06T14:13:35Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。