論文の概要: Large-scale Bilingual Language-Image Contrastive Learning
- arxiv url: http://arxiv.org/abs/2203.14463v1
- Date: Mon, 28 Mar 2022 03:02:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 13:10:38.664314
- Title: Large-scale Bilingual Language-Image Contrastive Learning
- Title(参考訳): 大規模バイリンガル言語画像コントラスト学習
- Authors: Byungsoo Ko, Geonmo Gu
- Abstract要約: 我々は11億枚の画像テキストペア(韓国語7800万、英語476万)を集め、KELIPという名前のバイリンガル・マルチモーダルモデルを訓練します。
我々は,MAE事前学習やマルチクロップ強化など,シンプルで効果的なトレーニング手法を導入する。
実験により、そのようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示すことが示された。
- 参考スコア(独自算出の注目度): 17.19890778916312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper is a technical report to share our experience and findings
building a Korean and English bilingual multimodal model. While many of the
multimodal datasets focus on English and multilingual multimodal research uses
machine-translated texts, employing such machine-translated texts is limited to
describing unique expressions, cultural information, and proper noun in
languages other than English. In this work, we collect 1.1 billion image-text
pairs (708 million Korean and 476 million English) and train a bilingual
multimodal model named KELIP. We introduce simple yet effective training
schemes, including MAE pre-training and multi-crop augmentation. Extensive
experiments demonstrate that a model trained with such training schemes shows
competitive performance in both languages. Moreover, we discuss
multimodal-related research questions: 1) strong augmentation-based methods can
distract the model from learning proper multimodal relations; 2) training
multimodal model without cross-lingual relation can learn the relation via
visual semantics; 3) our bilingual KELIP can capture cultural differences of
visual semantics for the same meaning of words; 4) a large-scale multimodal
model can be used for multimodal feature analogy. We hope that this work will
provide helpful experience and findings for future research. We provide an
open-source pre-trained KELIP.
- Abstract(参考訳): 本稿では,韓国語と英語のバイリンガル・マルチモーダルモデルを構築した経験と知見について報告する。
多くのマルチモーダルデータセットは、英語と多言語マルチモーダル研究に集中しているが、機械翻訳されたテキストは、英語以外の言語で固有の表現、文化情報、固有名詞を記述することに限定されている。
本研究では,11億枚の画像テキストペア(韓国語7800万,英語476万)を収集し,KELIPというバイリンガル・マルチモーダルモデルを訓練する。
maeプリトレーニングやマルチクロップ拡張など,単純かつ効果的なトレーニングスキームを導入する。
このようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示す。
さらに,マルチモーダル関連研究課題についても論じる。
1) 強増強に基づく手法は、適切なマルチモーダル関係の学習からモデルに注意をそらすことができる。
2) 言語間関係のないマルチモーダルモデルの訓練は,視覚意味論を通じて関係を学習することができる。
3) 両言語のケリップは,単語の同じ意味の視覚意味の文化的差異を捉えることができる。
4) 大規模マルチモーダルモデルは、マルチモーダル特徴アナロジーに使用できる。
この研究が今後の研究に有用な経験と知見をもたらすことを願っています。
オープンソースの事前学習KELIPを提供する。
関連論文リスト
- X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment [4.571088742209442]
91Kの英語-韓国-中国の多言語・マルチモーダルトレーニングデータセットを作成します。
韓国語と英語の両方で優れた性能を示すバイリンガル・マルチモーダル・モデルを開発した。
論文 参考訳(メタデータ) (2024-03-18T01:14:47Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - M3P: Learning Universal Representations via Multitask Multilingual
Multimodal Pre-training [119.16007395162431]
M3Pは、多言語事前訓練と多言語事前訓練を組み合わせた多言語マルチモーダル事前訓練モデルである。
我々は,M3Pが英語に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-04T03:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。