論文の概要: M3P: Learning Universal Representations via Multitask Multilingual
Multimodal Pre-training
- arxiv url: http://arxiv.org/abs/2006.02635v4
- Date: Thu, 1 Apr 2021 03:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 09:06:33.414387
- Title: M3P: Learning Universal Representations via Multitask Multilingual
Multimodal Pre-training
- Title(参考訳): M3P:マルチタスク多言語マルチモーダル事前学習によるユニバーサル表現の学習
- Authors: Minheng Ni, Haoyang Huang, Lin Su, Edward Cui, Taroon Bharti, Lijuan
Wang, Jianfeng Gao, Dongdong Zhang and Nan Duan
- Abstract要約: M3Pは、多言語事前訓練と多言語事前訓練を組み合わせた多言語マルチモーダル事前訓練モデルである。
我々は,M3Pが英語に匹敵する結果が得られることを示す。
- 参考スコア(独自算出の注目度): 119.16007395162431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present M3P, a Multitask Multilingual Multimodal Pre-trained model that
combines multilingual pre-training and multimodal pre-training into a unified
framework via multitask pre-training. Our goal is to learn universal
representations that can map objects occurred in different modalities or texts
expressed in different languages into a common semantic space. In addition, to
explicitly encourage fine-grained alignment between images and non-English
languages, we also propose Multimodal Code-switched Training (MCT) to combine
monolingual pre-training and multimodal pre-training via a code-switch
strategy. Experiments are performed on the multilingual image retrieval task
across two benchmark datasets, including MSCOCO and Multi30K. M3P can achieve
comparable results for English and new state-of-the-art results for non-English
languages.
- Abstract(参考訳): 本稿では,マルチリンガルプリトレーニングとマルチモーダルプリトレーニングを組み合わせたマルチタスクマルチリンガルプリトレーニングモデルであるm3pについて述べる。
我々のゴールは、異なる言語で表現されたオブジェクトやテキストを共通の意味空間にマッピングできる普遍的な表現を学習することである。
さらに,画像と非英語の微調整を明示的に促進するために,単言語による事前学習とマルチモーダル事前学習をコードスウィッチ戦略を介して組み合わせたマルチモーダルコードスイッチトトレーニング(MCT)を提案する。
MSCOCOとMulti30Kを含む2つのベンチマークデータセットの多言語画像検索タスクで実験を行う。
m3pは、英語と非英語言語の最先端の結果に匹敵する結果を得ることができる。
関連論文リスト
- m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt [39.2728779674405]
マルチモーダル多言語ニューラルマシン翻訳(m3P)を導くためのマルチモーダルプロンプトを利用するフレームワークを提案する。
本手法は, 中心言語としてのイメージを考慮し, 異なる言語の表現距離を最小化することを目的とする。
実験の結果,m3Pは従来のテキストのみのベースラインや多言語マルチモーダルメソッドよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-26T10:04:24Z) - LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine
Translation [94.33019040320507]
マルチモーダル機械翻訳(MMT)は、視覚的特徴を持つテキストのみの翻訳を強化することに焦点を当てている。
最近の進歩は、各言語ペアごとに別々のモデルをトレーニングすることに苦慮している。
7つの言語をカバーする2つのMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。
論文 参考訳(メタデータ) (2022-10-19T12:21:39Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Large-scale Bilingual Language-Image Contrastive Learning [17.19890778916312]
我々は11億枚の画像テキストペア(韓国語7800万、英語476万)を集め、KELIPという名前のバイリンガル・マルチモーダルモデルを訓練します。
我々は,MAE事前学習やマルチクロップ強化など,シンプルで効果的なトレーニング手法を導入する。
実験により、そのようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示すことが示された。
論文 参考訳(メタデータ) (2022-03-28T03:02:03Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。