論文の概要: Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset
and A Foundation Framework
- arxiv url: http://arxiv.org/abs/2202.06767v1
- Date: Mon, 14 Feb 2022 14:37:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 15:43:20.873004
- Title: Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset
and A Foundation Framework
- Title(参考訳): Wukong:中国の大規模クロスモーダルトレーニングデータセット1億件とファウンデーションフレームワーク
- Authors: Jiaxi Gu, Xiaojun Meng, Guansong Lu, Lu Hou, Minzhe Niu, Hang Xu,
Xiaodan Liang, Wei Zhang, Xin Jiang, Chunjing Xu
- Abstract要約: 本稿では,異なるマルチモーダル事前学習手法のベンチマークを行うため,中国の大規模クロスモーダルデータセットを提案する。
Wukongという大規模な中国のクロスモーダルデータセットをリリースし、Webから1億の中国語画像テキストペアを格納しています。
- 参考スコア(独自算出の注目度): 99.38817546900405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a large-scale Chinese cross-modal dataset for
benchmarking different multi-modal pre-training methods to facilitate the
Vision-Language Pre-training (VLP) research and community development. Recent
dual-stream VLP models like CLIP, ALIGN and FILIP have shown remarkable
performance on various downstream tasks as well as their remarkable zero-shot
ability in the open domain tasks. However, their success heavily relies on the
scale of pre-trained datasets. Though there have been both small-scale
vision-language English datasets like Flickr30k, CC12M as well as large-scale
LAION-400M, the current community lacks large-scale Vision-Language benchmarks
in Chinese, hindering the development of broader multilingual applications. On
the other hand, there is very rare publicly available large-scale Chinese
cross-modal pre-training dataset that has been released, making it hard to use
pre-trained models as services for downstream tasks. In this work, we release a
Large-Scale Chinese Cross-modal dataset named Wukong, containing 100 million
Chinese image-text pairs from the web. Furthermore, we release a group of big
models pre-trained with advanced image encoders (ResNet/ViT/SwinT) and
different pre-training methods (CLIP/FILIP/LiT). We provide extensive
experiments, a deep benchmarking of different downstream tasks, and some
exciting findings. Experiments show that Wukong can serve as a promising
Chinese pre-training dataset and benchmark for different cross-modal learning
methods, which gives superior performance on various downstream tasks such as
zero-shot image classification and image-text retrieval benchmarks. More
information can refer to https://wukong-dataset.github.io/wukong-dataset/.
- Abstract(参考訳): 本稿では、VLP(Vision-Language Pre-Training)研究とコミュニティ開発を容易にするために、異なるマルチモーダル事前学習手法をベンチマークするための大規模な中国のクロスモーダルデータセットを提案する。
clip,aligned,filipといった最近のデュアルストリームvlpモデルでは,さまざまなダウンストリームタスクのパフォーマンスと,オープンドメインタスクにおけるゼロショット能力が注目に値する。
しかし、彼らの成功は事前訓練されたデータセットのスケールに大きく依存している。
Flickr30k、CC12M、そして大規模なLAION-400Mのような小規模のヴィジュアル言語英語データセットは存在するが、現在のコミュニティは中国語の大規模なヴィジュアル・ランゲージ・ベンチマークを欠いているため、より広範な多言語アプリケーションの開発を妨げる。
一方で、一般公開されている中国の大規模クロスモーダルプリトレーニングデータセットは、リリースされているため、ダウンストリームタスクのサービスとして事前トレーニングされたモデルを使用するのが困難である。
本研究では、Webから1億の中国語画像テキストペアを含む、Wukongという大規模な中国語クロスモーダルデータセットをリリースする。
さらに、先進的な画像エンコーダ(ResNet/ViT/SwinT)と異なる事前学習方法(CLIP/FILIP/LiT)で事前訓練された大きなモデルのグループをリリースする。
広範な実験、さまざまな下流タスクの詳細なベンチマーク、エキサイティングな発見を提供しています。
実験によれば、武興は有望な中国の事前学習データセットと様々なクロスモーダル学習法のためのベンチマークとして機能し、ゼロショット画像分類や画像テキスト検索ベンチマークといった下流の様々なタスクで優れたパフォーマンスが得られる。
詳細はhttps://wukong-dataset.github.io/wukong-dataset/を参照してください。
関連論文リスト
- Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。
実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文 参考訳(メタデータ) (2022-11-02T17:47:23Z) - CCMB: A Large-scale Chinese Cross-modal Benchmark [46.349966178044184]
我々は、研究コミュニティ向けにCCMBという、大規模で高品質な中国のクロスモーダルベンチマークを構築した。
Zeroには7億5000万のテキスト記述と組み合わせた2億5000万の画像が含まれている。
論文 参考訳(メタデータ) (2022-05-08T13:19:23Z) - WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models [2.603259641572195]
我々はWuDaoMMという大規模マルチモーダルコーパスを導入し、6億5000万以上の画像テキストペアを網羅した。
画像とキャプションの相関が弱い複数のWebページから、約6億のデータを収集する。
また、WuDaoMMのベースバージョンを500万の強相関画像テキストペアでリリースし、一般的なクロスモーダルモデル事前トレーニングをサポートするのに十分です。
論文 参考訳(メタデータ) (2022-03-22T06:12:20Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - ZeroVL: A Strong Baseline for Aligning Vision-Language Representations
with Limited Resources [13.30815073857842]
我々は、限られたリソースでデュアルエンコーダのマルチモーダル表現アライメントを行うための総合的なトレーニングガイダンスを提供する。
事前学習のために1億のWebデータを収集し、最先端の手法に匹敵する、あるいは優れた結果を得る。
私たちのコードと事前訓練されたモデルは、研究コミュニティを促進するためにリリースされます。
論文 参考訳(メタデータ) (2021-12-17T05:40:28Z) - WenLan: Bridging Vision and Language by Large-Scale Multi-Modal
Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。
単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。
大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文 参考訳(メタデータ) (2021-03-11T09:39:49Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。