論文の概要: CCMB: A Large-scale Chinese Cross-modal Benchmark
- arxiv url: http://arxiv.org/abs/2205.03860v6
- Date: Wed, 8 Nov 2023 09:45:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 20:55:25.465811
- Title: CCMB: A Large-scale Chinese Cross-modal Benchmark
- Title(参考訳): CCMB:中国の大規模クロスモーダルベンチマーク
- Authors: Chunyu Xie, Heng Cai, Jincheng Li, Fanjing Kong, Xiaoyu Wu, Jianfei
Song, Henrique Morimitsu, Lin Yao, Dexin Wang, Xiangzheng Zhang, Dawei Leng,
Baochang Zhang, Xiangyang Ji, Yafeng Deng
- Abstract要約: 我々は、研究コミュニティ向けにCCMBという、大規模で高品質な中国のクロスモーダルベンチマークを構築した。
Zeroには7億5000万のテキスト記述と組み合わせた2億5000万の画像が含まれている。
- 参考スコア(独自算出の注目度): 46.349966178044184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-training (VLP) on large-scale datasets has shown premier
performance on various downstream tasks. In contrast to plenty of available
benchmarks with English corpus, large-scale pre-training datasets and
downstream datasets with Chinese corpus remain largely unexplored. In this
work, we build a large-scale high-quality Chinese Cross-Modal Benchmark named
CCMB for the research community, which contains the currently largest public
pre-training dataset Zero and five human-annotated fine-tuning datasets for
downstream tasks. Zero contains 250 million images paired with 750 million text
descriptions, plus two of the five fine-tuning datasets are also currently the
largest ones for Chinese cross-modal downstream tasks. Along with the CCMB, we
also develop a VLP framework named R2D2, applying a pre-Ranking + Ranking
strategy to learn powerful vision-language representations and a two-way
distillation method (i.e., target-guided Distillation and feature-guided
Distillation) to further enhance the learning capability. With the Zero and the
R2D2 VLP framework, we achieve state-of-the-art performance on twelve
downstream datasets from five broad categories of tasks including image-text
retrieval, image-text matching, image caption, text-to-image generation, and
zero-shot image classification. The datasets, models, and codes are available
at https://github.com/yuxie11/R2D2
- Abstract(参考訳): 大規模データセット上での視覚言語事前学習(VLP)は、さまざまな下流タスクで顕著なパフォーマンスを示している。
英語コーパスによる多くのベンチマークとは対照的に、大規模な事前学習データセットと中国語コーパスによる下流データセットはほとんど探索されていない。
本研究では,現在最大規模の公開事前学習データセットであるZeroと,ダウンストリームタスクのための5つの人手による微調整データセットを含む,大規模で高品質な中国のクロスモーダルベンチマークであるCCMBを構築した。
zeroには7億5000万のテキスト記述とペアリングされた2億5000万の画像が含まれており、また5つの微調整データセットのうち2つは、現在中国のクロスモーダルダウンストリームタスクで最大である。
また, CCMBとともにR2D2というVLPフレームワークを開発し, 強力な視覚言語表現を学習するための事前学習+ランク付け戦略と, 学習能力を高めるための双方向蒸留法(ターゲット誘導蒸留, 特徴誘導蒸留)を適用した。
ZeroとR2D2 VLPフレームワークを用いて、画像テキスト検索、画像テキストマッチング、画像キャプション、テキスト・ツー・イメージ生成、ゼロショット画像分類を含む5つのタスクから、12のダウンストリームデータセットの最先端性能を実現する。
データセット、モデル、コードはhttps://github.com/yuxie11/r2d2で入手できる。
関連論文リスト
- VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Vision-Language Dataset Distillation [26.886260846439612]
トラジェクトリマッチングのアイデアに基づいて,最初の視覚言語によるデータセット蒸留法を設計する。
重要な課題は、ビジョン言語データセットが独立したクラスのセットを持っていないことだ。
提案手法は, コントラスト式で画像とテキストのペアを共同蒸留する。
論文 参考訳(メタデータ) (2023-08-15T03:22:40Z) - Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。
実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文 参考訳(メタデータ) (2022-11-02T17:47:23Z) - LAION-5B: An open large-scale dataset for training next generation
image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。
このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。
また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文 参考訳(メタデータ) (2022-10-16T00:08:18Z) - WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models [2.603259641572195]
我々はWuDaoMMという大規模マルチモーダルコーパスを導入し、6億5000万以上の画像テキストペアを網羅した。
画像とキャプションの相関が弱い複数のWebページから、約6億のデータを収集する。
また、WuDaoMMのベースバージョンを500万の強相関画像テキストペアでリリースし、一般的なクロスモーダルモデル事前トレーニングをサポートするのに十分です。
論文 参考訳(メタデータ) (2022-03-22T06:12:20Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset
and A Foundation Framework [99.38817546900405]
本稿では,異なるマルチモーダル事前学習手法のベンチマークを行うため,中国の大規模クロスモーダルデータセットを提案する。
Wukongという大規模な中国のクロスモーダルデータセットをリリースし、Webから1億の中国語画像テキストペアを格納しています。
論文 参考訳(メタデータ) (2022-02-14T14:37:15Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。