論文の概要: M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale
Efficient Pretraining
- arxiv url: http://arxiv.org/abs/2401.15896v2
- Date: Sun, 4 Feb 2024 04:30:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 02:44:20.350441
- Title: M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale
Efficient Pretraining
- Title(参考訳): M2エンコーダ:大規模事前学習によるバイリンガル画像テキスト理解の改善
- Authors: Qingpei Guo, Furong Xu, Hanxiao Zhang, Wang Ren, Ziping Ma, Lin Ju,
Jian Wang, Jingdong Chen, Ming Yang
- Abstract要約: 我々は、60億以上の画像テキストペアを持つ包括的バイリンガルデータセットBM-6Bを導入する。
このようなデータセットのスケールを扱うために,画像テキストのコントラッシブな損失計算のためのグループ集約手法を提案する。
BM-6B上での細粒度理解能力を向上したバイリンガル画像テキスト基盤モデルの事前訓練を行う。
- 参考スコア(独自算出の注目度): 26.262677587795242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language foundation models like CLIP have revolutionized the field of
artificial intelligence. Nevertheless, VLM models supporting multi-language,
e.g., in both Chinese and English, have lagged due to the relative scarcity of
large-scale pretraining datasets. Toward this end, we introduce a comprehensive
bilingual (Chinese-English) dataset BM-6B with over 6 billion image-text pairs,
aimed at enhancing multimodal foundation models to well understand images in
both languages. To handle such a scale of dataset, we propose a novel grouped
aggregation approach for image-text contrastive loss computation, which reduces
the communication overhead and GPU memory demands significantly, facilitating a
60% increase in training speed. We pretrain a series of bilingual image-text
foundation models with an enhanced fine-grained understanding ability on BM-6B,
the resulting models, dubbed as $M^2$-Encoders (pronounced "M-Square"), set new
benchmarks in both languages for multimodal retrieval and classification tasks.
Notably, Our largest $M^2$-Encoder-10B model has achieved top-1 accuracies of
88.5% on ImageNet and 80.7% on ImageNet-CN under a zero-shot classification
setting, surpassing previously reported SoTA methods by 2.2% and 21.1%,
respectively. The $M^2$-Encoder series represents one of the most comprehensive
bilingual image-text foundation models to date, so we are making it available
to the research community for further exploration and development.
- Abstract(参考訳): CLIPのようなビジョン言語基盤モデルは、人工知能の分野に革命をもたらした。
それでも、中国語と英語の両方でマルチ言語をサポートするVLMモデルは、大規模な事前学習データセットの相対的不足により、遅れている。
この目的に向けて,60億以上の画像テキストペアを持つ包括的バイリンガル(中国語-英語)データセットbm-6bを導入する。
このようなデータセットのスケールに対処するために,画像テキストコントラスト損失計算のための新しいグループ化アグリゲーション手法を提案し,通信オーバーヘッドとgpuメモリ要求を大幅に削減し,トレーニング速度を60%向上させる。
我々は,M^2$-Encoders(M-Squareと発音する)と呼ばれるBM-6Bの細粒度理解能力を向上したバイリンガル画像テキスト基盤モデルを事前訓練し,マルチモーダル検索と分類タスクのための新しいベンチマークを設定した。
特に、我々の最大の$M^2$-Encoder-10Bモデルは、ImageNet-CNで88.5%、ImageNet-CNで80.7%という、ゼロショットの分類設定でトップ1の精度を達成した。
m^2$-encoderシリーズは、これまでで最も包括的なバイリンガルな画像テキスト基礎モデルの1つです。
関連論文リスト
- Large Multilingual Models Pivot Zero-Shot Multimodal Learning across
Languages [77.81064876413055]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs [57.56695651370155]
我々は、コンシューマハードウェア上で、数百万のトレーニング例を使用して、最初の多言語ビジョン-LLMであるmBLIPを提示する。
我々は視覚と言語を混合したタスクから多言語データを活用し、機械翻訳による高品質な英語データを95言語に翻訳する。
IGLUEベンチマークでは、mBLIPは最先端のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-07-13T17:51:58Z) - Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language
Representations [83.96551676836776]
Babel-ImageNetは、92の言語に1000のImageNetラベルを部分的に翻訳する、非常に多言語なベンチマークである。
92のBabel-ImageNet言語に対して,ゼロショット画像分類 (ZS-IC) を用いた8種類の多言語CLIPモデルの評価を行った。
Babel-ImageNetにおけるモデルZS-ICの性能は,画像テキスト検索の性能と高い相関性を示す。
論文 参考訳(メタデータ) (2023-06-14T17:53:06Z) - UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot
Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。
実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-07T18:26:22Z) - LAION-5B: An open large-scale dataset for training next generation
image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。
このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。
また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文 参考訳(メタデータ) (2022-10-16T00:08:18Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z) - MURAL: Multimodal, Multitask Retrieval Across Languages [14.323816604663053]
muraLは、画像テキストマッチングと翻訳ペアマッチングという2つのタスクを解決するデュアルエンコーダである。
数十億の翻訳ペアを組み込むことで、MuraL は ALIGN (Jia et al. PMLR'21) を拡張する。
アンダーリソース言語の性能は大幅に向上し、テキストテキスト学習はこれらの言語に対する画像キャプチャの多用性を克服できることを示した。
論文 参考訳(メタデータ) (2021-09-10T22:26:05Z) - Contrastive Language-Image Pre-training for the Italian Language [4.804798944613199]
イタリア語(CLIP-Italian)における最初のCLIPモデルについて述べる。
その結果,CLIP-Italianは画像検索やゼロショット分類のタスクにおいて,多言語CLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-08-19T13:53:47Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。