論文の概要: Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese
- arxiv url: http://arxiv.org/abs/2211.01335v1
- Date: Wed, 2 Nov 2022 17:47:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 12:18:56.340014
- Title: Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese
- Title(参考訳): 中国のCLIP:中国の視力訓練
- Authors: An Yang, Junshu Pan, Junyang Lin, Rui Men, Yichang Zhang, Jingren
Zhou, Chang Zhou
- Abstract要約: 我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。
実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
- 参考スコア(独自算出の注目度): 55.95225353842118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The tremendous success of CLIP (Radford et al., 2021) has promoted the
research and application of contrastive learning for vision-language
pretraining. However, while the publicly available CLIP models are mostly
pretrained on English data, it is hard to search for a CLIP pretrained on
Chinese data. We assume that pretraining a Chinese CLIP is essential to
research and industry for the following reasons. First, it can benefit the
vision-language retrieval in Chinese and thus promote the language-specific
multimodal representation learning. Second, the distribution of images in
Chinese websites should be different from that of images in English websites.
In this work, we construct a large-scale dataset of image-text pairs in
Chinese, where most data are retrieved from publicly available datasets, and we
pretrain Chinese CLIP models on the new dataset. We develop 5 Chinese CLIP
models of multiple sizes, spanning from 77 to 958 million parameters.
Furthermore, we propose a two-stage pretraining method, where the model is
first trained with the image encoder frozen and then trained with all
parameters being optimized, to achieve enhanced model performance. Our
comprehensive experiments demonstrate that Chinese CLIP can achieve the
state-of-the-art performance on MUGE, Flickr30K-CN, and COCO-CN in the setups
of zero-shot learning and finetuning, and it is able to achieve competitive
performance in zero-shot image classification based on the evaluation on the
ELEVATER benchmark (Li et al., 2022). Furthermore, through the ablation study
we show that the two-stage pretraining method is the most effective compared
with the other options. We release our code in
https://github.com/OFA-Sys/Chinese-CLIP
- Abstract(参考訳): CLIP(Radford et al., 2021)の驚異的な成功は、視覚言語事前学習におけるコントラスト学習の研究と応用を促進している。
しかし、一般に公開されているCLIPモデルは、主に英語データで事前訓練されているが、中国語データで事前訓練されたCLIPを探すのは難しい。
以下の理由から,中国におけるCLIPの事前教育が研究・産業に不可欠であると仮定する。
第一に、中国語の視覚言語検索の恩恵を受け、言語固有のマルチモーダル表現学習を促進することができる。
第二に、中国のウェブサイトにおける画像の配信は、英語ウェブサイトにおける画像と異なるべきである。
本研究では,中国における画像テキストペアの大規模データセットを構築し,公開データセットからほとんどのデータを抽出し,新しいデータセット上で中国語のCLIPモデルを事前学習する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発した。
さらに,まず画像エンコーダを凍結してモデルをトレーニングし,その後,すべてのパラメータを最適化してモデル性能を向上させる2段階事前学習法を提案する。
本研究では,ゼロショット学習と微調整のセットアップにおいて,ミュージ,flickr30k-cn,coco-cnの最先端性能を達成し,elevaterベンチマーク (li et al., 2022) の評価に基づいて,ゼロショット画像分類における競合性能を実現できることを示す。
また, アブレーション研究により, 2段階前訓練法が他の方法と比較して最も効果的であることが判明した。
コードをhttps://github.com/OFA-Sys/ Chinese-CLIPでリリースします。
関連論文リスト
- A Progressive Framework of Vision-language Knowledge Distillation and Alignment for Multilingual Scene [11.265838907079196]
概念的にシンプルだが効果的なCLIP圧縮フレームワークを提案し、中国語と英語の両方の文脈で、DC-CLIPと呼ばれる軽量な多言語視覚言語モデルを訓練する。
本研究では,高品質な中国語と英語のテキストイメージを収集し,多言語視覚言語の特徴蒸留とアライメントを含む2つの訓練段階を設計する。
ELEVATERベンチマークに基づくゼロショット画像分類における総合的な実験により、DC-CLIPは英語の文脈において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-04-17T10:56:06Z) - Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文 参考訳(メタデータ) (2024-01-30T17:14:05Z) - NLLB-CLIP -- train performant multilingual image retrieval model on a
budget [65.268245109828]
NLLBモデルからテキストエンコーダを用いたNLLB-CLIP-CLIPモデルを提案する。
201言語でキャプションを持つ106,246の良質な画像のデータセットを自動生成しました。
我々は,NLLB-CLIPが最先端モデルに匹敵する品質であり,低リソース言語ではかなり優れていることを示す。
論文 参考訳(メタデータ) (2023-09-04T23:26:11Z) - Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for
Pre-training and Benchmarks [63.09588102724274]
中国最大の高品質ビデオ言語データセットであるYouku-mPLUGをリリースする。
Youku-mPLUGには、大規模な事前トレーニングのための45のさまざまなカテゴリにわたる4億の生のビデオからフィルタリングされた1000万の中国製ビデオテキストペアが含まれている。
我々は、クロスモーダル検索、ビデオキャプション、ビデオカテゴリ分類の3つの一般的なビデオ言語タスクをカバーする、人手による最大のベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-07T11:52:36Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - CCMB: A Large-scale Chinese Cross-modal Benchmark [46.349966178044184]
我々は、研究コミュニティ向けにCCMBという、大規模で高品質な中国のクロスモーダルベンチマークを構築した。
Zeroには7億5000万のテキスト記述と組み合わせた2億5000万の画像が含まれている。
論文 参考訳(メタデータ) (2022-05-08T13:19:23Z) - Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset
and A Foundation Framework [99.38817546900405]
本稿では,異なるマルチモーダル事前学習手法のベンチマークを行うため,中国の大規模クロスモーダルデータセットを提案する。
Wukongという大規模な中国のクロスモーダルデータセットをリリースし、Webから1億の中国語画像テキストペアを格納しています。
論文 参考訳(メタデータ) (2022-02-14T14:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。