論文の概要: Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A
Vision-Language Framework
- arxiv url: http://arxiv.org/abs/2205.03860v1
- Date: Sun, 8 May 2022 13:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 14:15:10.514303
- Title: Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A
Vision-Language Framework
- Title(参考訳): zeroとr2d2:中国の大規模クロスモーダルベンチマークとビジョン言語フレームワーク
- Authors: Chunyu Xie, Heng Cai, Jianfei Song, Jincheng Li, Fanjing Kong, Xiaoyu
Wu, Henrique Morimitsu, Lin Yao, Dexin Wang, Dawei Leng, Xiangyang Ji, Yafeng
Deng
- Abstract要約: AI研究者のための大規模な中国のクロスモーダルベンチマークZeroを開発した。
ダウンストリームタスクのための2つの事前トレーニングデータセットと5つの微調整データセットをリリースします。
クロスモーダル学習のための新しい事前学習+ランキングを提案する。
- 参考スコア(独自算出の注目度): 32.28701404595151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-training (VLP) relying on large-scale pre-training
datasets has shown premier performance on various downstream tasks. In this
sense, a complete and fair benchmark (i.e., including large-scale pre-training
datasets and a variety of downstream datasets) is essential for VLP. But how to
construct such a benchmark in Chinese remains a critical problem. To this end,
we develop a large-scale Chinese cross-modal benchmark called Zero for AI
researchers to fairly compare VLP models. We release two pre-training datasets
and five fine-tuning datasets for downstream tasks. Furthermore, we propose a
novel pre-training framework of pre-Ranking + Ranking for cross-modal learning.
Specifically, we apply global contrastive pre-ranking to learn the individual
representations of images and Chinese texts, respectively. We then fuse the
representations in a fine-grained ranking manner via an image-text cross
encoder and a text-image cross encoder. To further enhance the capability of
the model, we propose a two-way distillation strategy consisting of
target-guided Distillation and feature-guided Distillation. For simplicity, we
call our model R2D2. We achieve state-of-the-art performance on four public
cross-modal datasets and our five downstream datasets. The datasets, models and
codes will be made available.
- Abstract(参考訳): 大規模な事前トレーニングデータセットに依存する視覚言語事前トレーニング(VLP)は、さまざまな下流タスクで顕著なパフォーマンスを示している。
この意味では、VLPには完全で公平なベンチマーク(大規模な事前トレーニングデータセットとさまざまなダウンストリームデータセットを含む)が不可欠である。
しかし、こうしたベンチマークを中国語でどのように構築するかは依然として重要な問題である。
この目的のために、我々は、AI研究者のためのZeroと呼ばれる大規模な中国のクロスモーダルベンチマークを開発し、VLPモデルを公平に比較した。
ダウンストリームタスクのための2つの事前トレーニングデータセットと5つの微調整データセットをリリースします。
さらに,クロスモーダル学習のためのプレランキング+ランキングの新たな事前学習フレームワークを提案する。
具体的には、画像の個々の表現と中国語のテキストを学習するために、グローバルコントラストプレランクを適用する。
次に,画像-テキストクロスエンコーダとテキスト-画像クロスエンコーダを用いて,詳細なランク付けを行う。
モデルの性能をさらに高めるために,ターゲット誘導蒸留と特徴誘導蒸留からなる2方向蒸留戦略を提案する。
シンプルさのため、当社のモデルはR2D2です。
4つのパブリックなクロスモーダルデータセットと5つのダウンストリームデータセットで最先端のパフォーマンスを実現します。
データセット、モデル、コードは利用可能になる。
関連論文リスト
- VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Vision-Language Dataset Distillation [26.886260846439612]
トラジェクトリマッチングのアイデアに基づいて,最初の視覚言語によるデータセット蒸留法を設計する。
重要な課題は、ビジョン言語データセットが独立したクラスのセットを持っていないことだ。
提案手法は, コントラスト式で画像とテキストのペアを共同蒸留する。
論文 参考訳(メタデータ) (2023-08-15T03:22:40Z) - Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。
実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文 参考訳(メタデータ) (2022-11-02T17:47:23Z) - LAION-5B: An open large-scale dataset for training next generation
image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。
このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。
また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文 参考訳(メタデータ) (2022-10-16T00:08:18Z) - WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models [2.603259641572195]
我々はWuDaoMMという大規模マルチモーダルコーパスを導入し、6億5000万以上の画像テキストペアを網羅した。
画像とキャプションの相関が弱い複数のWebページから、約6億のデータを収集する。
また、WuDaoMMのベースバージョンを500万の強相関画像テキストペアでリリースし、一般的なクロスモーダルモデル事前トレーニングをサポートするのに十分です。
論文 参考訳(メタデータ) (2022-03-22T06:12:20Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset
and A Foundation Framework [99.38817546900405]
本稿では,異なるマルチモーダル事前学習手法のベンチマークを行うため,中国の大規模クロスモーダルデータセットを提案する。
Wukongという大規模な中国のクロスモーダルデータセットをリリースし、Webから1億の中国語画像テキストペアを格納しています。
論文 参考訳(メタデータ) (2022-02-14T14:37:15Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。