論文の概要: UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training
- arxiv url: http://arxiv.org/abs/2104.00332v1
- Date: Thu, 1 Apr 2021 08:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:38:23.349488
- Title: UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training
- Title(参考訳): UC2: 共通言語間クロスモーダルビジョン・ランゲージ事前訓練
- Authors: Mingyang Zhou, Luowei Zhou, Shuohang Wang, Yu Cheng, Linjie Li, Zhou
Yu, Jingjing Liu
- Abstract要約: UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
- 参考スコア(独自算出の注目度): 52.852163987208826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-language pre-training has achieved impressive success in learning
multimodal representations between vision and language. To generalize this
success to non-English languages, we introduce UC2, the first machine
translation-augmented framework for cross-lingual cross-modal representation
learning. To tackle the scarcity problem of multilingual captions for image
datasets, we first augment existing English-only datasets with other languages
via machine translation (MT). Then we extend the standard Masked Language
Modeling and Image-Text Matching training objectives to multilingual setting,
where alignment between different languages is captured through shared visual
context (i.e, using image as pivot). To facilitate the learning of a joint
embedding space of images and all languages of interest, we further propose two
novel pre-training tasks, namely Masked Region-to-Token Modeling (MRTM) and
Visual Translation Language Modeling (VTLM), leveraging MT-enhanced translated
data. Evaluation on multilingual image-text retrieval and multilingual visual
question answering benchmarks demonstrates that our proposed framework achieves
new state-of-the-art on diverse non-English benchmarks while maintaining
comparable performance to monolingual pre-trained models on English tasks.
- Abstract(参考訳): 視覚と言語の事前学習は、視覚と言語の間のマルチモーダル表現を学ぶことで素晴らしい成功を収めた。
この成功を非英語言語に一般化するために、言語間相互モーダル表現学習のための最初の機械翻訳拡張フレームワークUC2を紹介する。
画像データセットの多言語キャプションの不足問題に対処するため,機械翻訳(MT)により,既存の英語のみのデータセットを他の言語で拡張する。
次に、標準のマスキング言語モデリングと画像テキストマッチングトレーニング対象を多言語設定に拡張し、異なる言語間のアライメントを共有ビジュアルコンテキスト(イメージをピボットとして使用する)でキャプチャする。
画像の埋め込み空間とすべての言語を学習しやすくするため,MT強調データを利用したMRTM(Masked Region-to-Token Modeling)とVTLM(Visual Translation Language Modeling)という2つの新しい事前学習タスクを提案する。
多言語画像テキスト検索と多言語視覚質問応答ベンチマークの評価により,提案手法は,英語タスクにおける単言語前学習モデルと同等の性能を維持しつつ,多言語非英語ベンチマークにおいて,新たな最先端を実現した。
関連論文リスト
- ICU: Conquering Language Barriers in Vision-and-Language Modeling by
Dividing the Tasks into Image Captioning and Language Understanding [1.9906814758497542]
ICUは、V&Lタスクを2段階に分割する: V&Lモデルが英語で画像キャプションを行い、マルチ言語モデル(mLM)がそのキャプションをaltテキストとして取り、言語間理解を行う。
ICUは5つの言語に対して新しい最先端の結果が得られ、残りの言語では同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-10-19T07:11:48Z) - Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task
Instruction Tuning [27.544311403607786]
バイリンガルな大規模視覚言語モデル(LVLM)の集合であるZiya-Visualシリーズを紹介する。
我々のモデルは BLIP-2 から Querying Transformer を採用し,最適化手法のさらなる支援を探求している。
さらに,多モーダルシナリオにおけるGPT-4の理解能力を刺激し,収集した英語画像テキストデータセットを中国語に翻訳する。
論文 参考訳(メタデータ) (2023-10-12T09:39:17Z) - RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。
6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-13T14:41:05Z) - LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine
Translation [94.33019040320507]
マルチモーダル機械翻訳(MMT)は、視覚的特徴を持つテキストのみの翻訳を強化することに焦点を当てている。
最近の進歩は、各言語ペアごとに別々のモデルをトレーニングすることに苦慮している。
7つの言語をカバーする2つのMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。
論文 参考訳(メタデータ) (2022-10-19T12:21:39Z) - Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal
Pre-training [21.017471684853987]
言語間およびモーダル間の事前学習を統一する,シンプルで効果的な事前学習フレームワークであるクロスビュー言語モデリングを導入する。
我々のアプローチは、言語横断とモーダル横断の事前学習が、同じオブジェクトの2つの異なるビューを共通の意味空間に整合させることで同じ目標を共有するという重要な観察によって動機付けられている。
CLMは、ゼロショットのクロスランガル転送により、代表的英語ビジョン言語モデルの翻訳テスト性能を上回る最初のマルチランガル・マルチモーダル事前訓練モデルである。
論文 参考訳(メタデータ) (2022-06-01T16:45:24Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - Cross-lingual Visual Pre-training for Multimodal Machine Translation [36.4592103797139]
我々は、言語間および視覚的事前学習法を組み合わせて、言語間表現を学習する。
マルチモーダル機械翻訳のための微調整を行うと、これらのモデルが最先端の性能を得ることを示す。
論文 参考訳(メタデータ) (2021-01-25T12:46:41Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。