論文の概要: MetaCLIP 2: A Worldwide Scaling Recipe
- arxiv url: http://arxiv.org/abs/2507.22062v1
- Date: Tue, 29 Jul 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.853914
- Title: MetaCLIP 2: A Worldwide Scaling Recipe
- Title(参考訳): MetaCLIP 2: 世界規模のスケーリングレシピ
- Authors: Yung-Sung Chuang, Yang Li, Dong Wang, Ching-Feng Yeh, Kehan Lyu, Ramya Raghavendra, James Glass, Lifei Huang, Jason Weston, Luke Zettlemoyer, Xinlei Chen, Zhuang Liu, Saining Xie, Wen-tau Yih, Shang-Wen Li, Hu Xu,
- Abstract要約: 本稿では,世界規模のWebスケールイメージテキストペア上でCLIPをスクラッチからトレーニングする最初のレシピであるMetaCLIP 2を紹介する。
ゼロショットイメージネットの分類では、MetaCLIP 2 ViT-H/14は英語のみの分類を0.8%、mSigLIPを0.7%上回る。
- 参考スコア(独自算出の注目度): 112.4690561863437
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Contrastive Language-Image Pretraining (CLIP) is a popular foundation model, supporting from zero-shot classification, retrieval to encoders for multimodal large language models (MLLMs). Although CLIP is successfully trained on billion-scale image-text pairs from the English world, scaling CLIP's training further to learning from the worldwide web data is still challenging: (1) no curation method is available to handle data points from non-English world; (2) the English performance from existing multilingual CLIP is worse than its English-only counterpart, i.e., "curse of multilinguality" that is common in LLMs. Here, we present MetaCLIP 2, the first recipe training CLIP from scratch on worldwide web-scale image-text pairs. To generalize our findings, we conduct rigorous ablations with minimal changes that are necessary to address the above challenges and present a recipe enabling mutual benefits from English and non-English world data. In zero-shot ImageNet classification, MetaCLIP 2 ViT-H/14 surpasses its English-only counterpart by 0.8% and mSigLIP by 0.7%, and surprisingly sets new state-of-the-art without system-level confounding factors (e.g., translation, bespoke architecture changes) on multilingual benchmarks, such as CVQA with 57.4%, Babel-ImageNet with 50.2% and XM3600 with 64.3% on image-to-text retrieval.
- Abstract(参考訳): Contrastive Language-Image Pretraining (CLIP)は、ゼロショット分類、検索からマルチモーダル大言語モデル(MLLM)のエンコーダまで、人気のある基礎モデルである。
CLIPは、英語の世界からの数十億もの画像テキストペアのトレーニングに成功しているが、CLIPのトレーニングを世界のWebデータから学習するためにさらに拡張することは、まだ難しい: 1) 英語以外の世界のデータポイントを扱うためのキュレーション手法がない; (2) 既存の多言語CLIPの英語のパフォーマンスは、英語のみのそれよりも悪い、すなわちLLMで一般的な「多言語性のキュレート」である。
ここでは,世界規模のWebスケールイメージテキストペア上でCLIPをゼロからトレーニングする最初のレシピであるMetaCLIP 2を紹介する。
本研究は,これらの課題に対処するために必要な最小限の変更を伴って厳格な改善を行い,英語と非英語の世界データによる相互利益を実現するレシピを提案する。
ゼロショット画像ネットの分類では、MetaCLIP 2 ViT-H/14は英語のみを0.8%、mSigLIPを0.7%上回り、CVQA(57.4%)、Babel-ImageNet(50.2%)、XM3600(64.3%)といったマルチリンガルベンチマーク上で、システムレベルのコンバウンド要因(例えば、翻訳、ベスポークアーキテクチャの変更)を伴わない、新しい最先端技術を設定する。
関連論文リスト
- Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation [4.063715077687089]
Distill CLIP (DCLIP) はCLIPモデルの微調整版である。
オリジナルのモデルの強力なゼロショット分類機能を保ちながら、マルチモーダルな画像テキスト検索を強化する。
論文 参考訳(メタデータ) (2025-05-25T07:08:07Z) - TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。
提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。
当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文 参考訳(メタデータ) (2025-03-19T17:58:57Z) - Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文 参考訳(メタデータ) (2024-01-30T17:14:05Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。