Fugu-MT 論文翻訳(概要): M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale Efficient Pretraining

論文の概要: M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale Efficient Pretraining

arxiv url: http://arxiv.org/abs/2401.15896v2
Date: Sun, 4 Feb 2024 04:30:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 02:44:20.350441
Title: M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale Efficient Pretraining
Title（参考訳）: M2エンコーダ:大規模事前学習によるバイリンガル画像テキスト理解の改善
Authors: Qingpei Guo, Furong Xu, Hanxiao Zhang, Wang Ren, Ziping Ma, Lin Ju, Jian Wang, Jingdong Chen, Ming Yang
Abstract要約: 我々は、60億以上の画像テキストペアを持つ包括的バイリンガルデータセットBM-6Bを導入する。このようなデータセットのスケールを扱うために,画像テキストのコントラッシブな損失計算のためのグループ集約手法を提案する。 BM-6B上での細粒度理解能力を向上したバイリンガル画像テキスト基盤モデルの事前訓練を行う。
参考スコア（独自算出の注目度）: 26.262677587795242
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language foundation models like CLIP have revolutionized the field of artificial intelligence. Nevertheless, VLM models supporting multi-language, e.g., in both Chinese and English, have lagged due to the relative scarcity of large-scale pretraining datasets. Toward this end, we introduce a comprehensive bilingual (Chinese-English) dataset BM-6B with over 6 billion image-text pairs, aimed at enhancing multimodal foundation models to well understand images in both languages. To handle such a scale of dataset, we propose a novel grouped aggregation approach for image-text contrastive loss computation, which reduces the communication overhead and GPU memory demands significantly, facilitating a 60% increase in training speed. We pretrain a series of bilingual image-text foundation models with an enhanced fine-grained understanding ability on BM-6B, the resulting models, dubbed as $M^2$-Encoders (pronounced "M-Square"), set new benchmarks in both languages for multimodal retrieval and classification tasks. Notably, Our largest $M^2$-Encoder-10B model has achieved top-1 accuracies of 88.5% on ImageNet and 80.7% on ImageNet-CN under a zero-shot classification setting, surpassing previously reported SoTA methods by 2.2% and 21.1%, respectively. The $M^2$-Encoder series represents one of the most comprehensive bilingual image-text foundation models to date, so we are making it available to the research community for further exploration and development.
Abstract（参考訳）: CLIPのようなビジョン言語基盤モデルは、人工知能の分野に革命をもたらした。それでも、中国語と英語の両方でマルチ言語をサポートするVLMモデルは、大規模な事前学習データセットの相対的不足により、遅れている。この目的に向けて,60億以上の画像テキストペアを持つ包括的バイリンガル(中国語-英語)データセットbm-6bを導入する。このようなデータセットのスケールに対処するために,画像テキストコントラスト損失計算のための新しいグループ化アグリゲーション手法を提案し,通信オーバーヘッドとgpuメモリ要求を大幅に削減し,トレーニング速度を60%向上させる。我々は,M^2$-Encoders(M-Squareと発音する)と呼ばれるBM-6Bの細粒度理解能力を向上したバイリンガル画像テキスト基盤モデルを事前訓練し,マルチモーダル検索と分類タスクのための新しいベンチマークを設定した。特に、我々の最大の$M^2$-Encoder-10Bモデルは、ImageNet-CNで88.5%、ImageNet-CNで80.7%という、ゼロショットの分類設定でトップ1の精度を達成した。 m^2$-encoderシリーズは、これまでで最も包括的なバイリンガルな画像テキスト基礎モデルの1つです。

関連論文リスト

uCLIP: Parameter-Efficient Multilingual Extension of Vision-Language Models with Unpaired Data [3.364569898365253]
我々は多言語視覚言語アライメントのための軽量でデータ効率の良いフレームワークを提案する。本手法では,画像テキストペアやテキストペアは必要とせず,事前訓練された画像エンコーダと多言語テキストエンコーダの両方を凍結する。この最小限のトレーニング設定は、監督が限られている言語でも堅牢な多言語アライメントを可能にする。
論文参考訳（メタデータ） (2025-11-17T06:34:49Z)
Meta CLIP 2: A Worldwide Scaling Recipe [112.4690561863437]
私たちは,世界規模のWebスケールイメージテキストペア上でCLIPをゼロからトレーニングする最初のレシピであるMeta CLIP 2を紹介する。ゼロショットイメージネットの分類では、Meta CLIP 2 ViT-H/14は英語のみの分類を0.8%、mSigLIPを0.7%上回る。
論文参考訳（メタデータ） (2025-07-29T17:59:58Z)
TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文参考訳（メタデータ） (2025-03-19T17:58:57Z)
LowCLIP: Adapting the CLIP Model Architecture for Low-Resource Languages in Multimodal Image Retrieval Task [0.0]
本研究では,低リソース言語,特にアゼルバイジャン語における画像検索のための視覚言語モデルの開発について検討する。計算効率と性能のバランスをとるために,CLIPモデルアーキテクチャを統合した。私たちの研究では、EfficientNet0やTiny Swin Transformerといったモデルが、トレーニングしたデータセット上で最高のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-08-25T18:10:16Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文参考訳（メタデータ） (2023-08-23T09:55:41Z)
mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs [50.17767479660832]
視覚言語モデル(Vision-LLMs)は、事前訓練された画像エンコーダを(凍結した)大型言語モデル(LLMs)とポストホック条件LLMsに整合させ、画像入力を理解する。我々は,マルチ言語LLMを利用した最初のビジョン-LLMであるmBLIPを,コンシューマレベルのハードウェア上で計算的に効率よく提供する。
論文参考訳（メタデータ） (2023-07-13T17:51:58Z)
UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文参考訳（メタデータ） (2023-06-07T18:26:22Z)
LAION-5B: An open large-scale dataset for training next generation image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文参考訳（メタデータ） (2022-10-16T00:08:18Z)
Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。 CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文参考訳（メタデータ） (2021-10-16T10:59:39Z)
MURAL: Multimodal, Multitask Retrieval Across Languages [14.323816604663053]
muraLは、画像テキストマッチングと翻訳ペアマッチングという2つのタスクを解決するデュアルエンコーダである。数十億の翻訳ペアを組み込むことで、MuraL は ALIGN (Jia et al. PMLR'21) を拡張する。アンダーリソース言語の性能は大幅に向上し、テキストテキスト学習はこれらの言語に対する画像キャプチャの多用性を克服できることを示した。
論文参考訳（メタデータ） (2021-09-10T22:26:05Z)
Contrastive Language-Image Pre-training for the Italian Language [4.804798944613199]
イタリア語(CLIP-Italian)における最初のCLIPモデルについて述べる。その結果,CLIP-Italianは画像検索やゼロショット分類のタスクにおいて,多言語CLIPモデルよりも優れていた。
論文参考訳（メタデータ） (2021-08-19T13:53:47Z)
UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。 Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文参考訳（メタデータ） (2021-04-01T08:30:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。