論文の概要: DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset
- arxiv url: http://arxiv.org/abs/2601.10305v1
- Date: Thu, 15 Jan 2026 11:28:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.115828
- Title: DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset
- Title(参考訳): DanQing: 大規模中国のビジョンランゲージ事前トレーニングデータセット
- Authors: Hengyu Shen, Tiancheng Gu, Bin Qin, Lan Wu, Yuling Wu, Shuo Tan, Zelong Sun, Jun Wang, Nan Wu, Xiang An, Weidong Cai, Ziyong Feng, Kaicheng Yang,
- Abstract要約: 我々は,Common Crawlから収集した1億枚の画像テキストペアを含むDanQingを提案する。
DanQingは厳格な選択プロセスを通じてキュレートされ、優れたデータ品質が得られる。
我々は、SigLIP2モデルの継続事前トレーニングにより、DanQingと既存のデータセットを比較した。
- 参考スコア(独自算出の注目度): 22.47012356405577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Pre-training (VLP) models demonstrate strong performance across various downstream tasks by learning from large-scale image-text pairs through contrastive pretraining. The release of extensive English image-text datasets (e.g., COYO-700M and LAION-400M) has enabled widespread adoption of models such as CLIP and SigLIP in tasks including cross-modal retrieval and image captioning. However, the advancement of Chinese vision-language pretraining has substantially lagged behind, due to the scarcity of high-quality Chinese image-text data. To address this gap, we develop a comprehensive pipeline for constructing a high-quality Chinese cross-modal dataset. As a result, we propose DanQing, which contains 100 million image-text pairs collected from Common Crawl. Different from existing datasets, DanQing is curated through a more rigorous selection process, yielding superior data quality. Moreover, DanQing is primarily built from 2024-2025 web data, enabling models to better capture evolving semantic trends and thus offering greater practical utility. We compare DanQing with existing datasets by continual pre-training of the SigLIP2 model. Experimental results show that DanQing consistently achieves superior performance across a range of Chinese downstream tasks, including zero-shot classification, cross-modal retrieval, and LMM-based evaluations. To facilitate further research in Chinese vision-language pre-training, we will open-source the DanQing dataset under the Creative Common CC-BY 4.0 license.
- Abstract(参考訳): VLP(Vision-Language Pre-Training)モデルは、コントラスト付き事前トレーニングを通じて大規模な画像テキストペアから学習することで、様々な下流タスクに対して強力なパフォーマンスを示す。
大規模な英語画像テキストデータセット(例:COYO-700M、LAION-400M)のリリースにより、クロスモーダル検索や画像キャプションといったタスクでCLIPやSigLIPといったモデルが広く採用されている。
しかし、高品質な中国語画像テキストデータの不足により、中国語の視線事前学習の進歩は著しく遅れている。
このギャップに対処するため、我々は高品質な中国のクロスモーダルデータセットを構築するための包括的なパイプラインを構築した。
そこで本研究では,Common Crawlから収集した1億枚の画像テキストペアを含むDanQingを提案する。
既存のデータセットとは異なり、DanQingはより厳密な選択プロセスを通じてキュレーションされ、優れたデータ品質が得られる。
さらに、DanQingは主に2024-2025のWebデータから構築されており、モデルが進化するセマンティックな傾向をよりよく捉え、より実用的な機能を提供する。
我々は、SigLIP2モデルの継続事前トレーニングにより、DanQingと既存のデータセットを比較した。
実験結果から,DanQingは,ゼロショット分類,クロスモーダル検索,LMMに基づく評価など,中国のダウンストリームタスクにおいて,一貫したパフォーマンスを実現していることがわかった。
中国のビジョン言語事前学習のさらなる研究を促進するため、Creative Common CC-BY 4.0ライセンスの下でDanQingデータセットをオープンソース化する。
関連論文リスト
- DEJIMA: A Novel Large-scale Japanese Dataset for Image Captioning and Visual Question Answering [42.08511799479111]
本研究は,日本語ビジョン・アンド・ランゲージ(V&L)モデリングのための高品質・大規模資源の不足に対処する。
本稿では,大規模Webコレクションと厳密なフィルタリング/復号化,オブジェクト検出駆動型エビデンス抽出,Large Language Model(LLM)に基づく改良などを統合した,スケーラブルで再現可能なパイプラインを提案する。
論文 参考訳(メタデータ) (2025-11-30T08:09:43Z) - Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。
実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文 参考訳(メタデータ) (2022-11-02T17:47:23Z) - CCMB: A Large-scale Chinese Cross-modal Benchmark [46.349966178044184]
我々は、研究コミュニティ向けにCCMBという、大規模で高品質な中国のクロスモーダルベンチマークを構築した。
Zeroには7億5000万のテキスト記述と組み合わせた2億5000万の画像が含まれている。
論文 参考訳(メタデータ) (2022-05-08T13:19:23Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset
and A Foundation Framework [99.38817546900405]
本稿では,異なるマルチモーダル事前学習手法のベンチマークを行うため,中国の大規模クロスモーダルデータセットを提案する。
Wukongという大規模な中国のクロスモーダルデータセットをリリースし、Webから1億の中国語画像テキストペアを格納しています。
論文 参考訳(メタデータ) (2022-02-14T14:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。