論文の概要: $\boldsymbol{M^2}$-Encoder: Advancing Bilingual Image-Text Understanding
by Large-scale Efficient Pretraining
- arxiv url: http://arxiv.org/abs/2401.15896v1
- Date: Mon, 29 Jan 2024 05:43:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 15:49:49.299932
- Title: $\boldsymbol{M^2}$-Encoder: Advancing Bilingual Image-Text Understanding
by Large-scale Efficient Pretraining
- Title(参考訳): $\boldsymbol{M^2}$-Encoder: 大規模事前学習によるバイリンガル画像テキスト理解の促進
- Authors: Qingpei Guo, Furong Xu, Hanxiao Zhang, Wang Ren, Ziping Ma, Lin Ju,
Jian Wang, Jingdong Chen, Ming Yang
- Abstract要約: 我々は、60億以上の画像テキストペアを持つ包括的バイリンガルデータセットBM-6Bを導入する。
このようなデータセットのスケールを扱うために,画像テキストのコントラッシブな損失計算のためのグループ集約手法を提案する。
BM-6B上での細粒度理解能力を向上したバイリンガル画像テキスト基盤モデルの事前訓練を行う。
- 参考スコア(独自算出の注目度): 26.262677587795242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language foundation models like CLIP have revolutionized the field of
artificial intelligence. Nevertheless, VLM models supporting multi-language,
e.g., in both Chinese and English, have lagged due to the relative scarcity of
large-scale pretraining datasets. Toward this end, we introduce a comprehensive
bilingual (Chinese-English) dataset BM-6B with over 6 billion image-text pairs,
aimed at enhancing multimodal foundation models to well understand images in
both languages. To handle such a scale of dataset, we propose a novel grouped
aggregation approach for image-text contrastive loss computation, which reduces
the communication overhead and GPU memory demands significantly, facilitating a
60% increase in training speed. We pretrain a series of bilingual image-text
foundation models with an enhanced fine-grained understanding ability on BM-6B,
the resulting models, dubbed as $M^2$-Encoders (pronounced "M-Square"), set new
benchmarks in both languages for multimodal retrieval and classification tasks.
Notably, Our largest $M^2$-Encoder-10B model has achieved top-1 accuracies of
88.5% on ImageNet and 80.7% on ImageNet-CN under a zero-shot classification
setting, surpassing previously reported SoTA methods by 2.2% and 21.1%,
respectively. The $M^2$-Encoder series represents one of the most comprehensive
bilingual image-text foundation models to date, so we are making it available
to the research community for further exploration and development.
- Abstract(参考訳): CLIPのようなビジョン言語基盤モデルは、人工知能の分野に革命をもたらした。
それでも、中国語と英語の両方でマルチ言語をサポートするVLMモデルは、大規模な事前学習データセットの相対的不足により、遅れている。
この目的に向けて,60億以上の画像テキストペアを持つ包括的バイリンガル(中国語-英語)データセットbm-6bを導入する。
このようなデータセットのスケールに対処するために,画像テキストコントラスト損失計算のための新しいグループ化アグリゲーション手法を提案し,通信オーバーヘッドとgpuメモリ要求を大幅に削減し,トレーニング速度を60%向上させる。
我々は,M^2$-Encoders(M-Squareと発音する)と呼ばれるBM-6Bの細粒度理解能力を向上したバイリンガル画像テキスト基盤モデルを事前訓練し,マルチモーダル検索と分類タスクのための新しいベンチマークを設定した。
特に、我々の最大の$M^2$-Encoder-10Bモデルは、ImageNet-CNで88.5%、ImageNet-CNで80.7%という、ゼロショットの分類設定でトップ1の精度を達成した。
m^2$-encoderシリーズは、これまでで最も包括的なバイリンガルな画像テキスト基礎モデルの1つです。
関連論文リスト
- LowCLIP: Adapting the CLIP Model Architecture for Low-Resource Languages in Multimodal Image Retrieval Task [0.0]
本研究では,低リソース言語,特にアゼルバイジャン語における画像検索のための視覚言語モデルの開発について検討する。
計算効率と性能のバランスをとるために,CLIPモデルアーキテクチャを統合した。
私たちの研究では、EfficientNet0やTiny Swin Transformerといったモデルが、トレーニングしたデータセット上で最高のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-08-25T18:10:16Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs [50.17767479660832]
視覚言語モデル(Vision-LLMs)は、事前訓練された画像エンコーダを(凍結した)大型言語モデル(LLMs)とポストホック条件LLMsに整合させ、画像入力を理解する。
我々は,マルチ言語LLMを利用した最初のビジョン-LLMであるmBLIPを,コンシューマレベルのハードウェア上で計算的に効率よく提供する。
論文 参考訳(メタデータ) (2023-07-13T17:51:58Z) - UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot
Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。
実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-07T18:26:22Z) - LAION-5B: An open large-scale dataset for training next generation
image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。
このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。
また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文 参考訳(メタデータ) (2022-10-16T00:08:18Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z) - MURAL: Multimodal, Multitask Retrieval Across Languages [14.323816604663053]
muraLは、画像テキストマッチングと翻訳ペアマッチングという2つのタスクを解決するデュアルエンコーダである。
数十億の翻訳ペアを組み込むことで、MuraL は ALIGN (Jia et al. PMLR'21) を拡張する。
アンダーリソース言語の性能は大幅に向上し、テキストテキスト学習はこれらの言語に対する画像キャプチャの多用性を克服できることを示した。
論文 参考訳(メタデータ) (2021-09-10T22:26:05Z) - Contrastive Language-Image Pre-training for the Italian Language [4.804798944613199]
イタリア語(CLIP-Italian)における最初のCLIPモデルについて述べる。
その結果,CLIP-Italianは画像検索やゼロショット分類のタスクにおいて,多言語CLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-08-19T13:53:47Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。