論文の概要: Cross-lingual Visual Pre-training for Multimodal Machine Translation
- arxiv url: http://arxiv.org/abs/2101.10044v1
- Date: Mon, 25 Jan 2021 12:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 19:21:42.932112
- Title: Cross-lingual Visual Pre-training for Multimodal Machine Translation
- Title(参考訳): マルチモーダル機械翻訳のためのクロスリンガルビジュアルプリトレーニング
- Authors: Ozan Caglayan, Menekse Kuyu, Mustafa Sercan Amac, Pranava Madhyastha,
Erkut Erdem, Aykut Erdem, Lucia Specia
- Abstract要約: 我々は、言語間および視覚的事前学習法を組み合わせて、言語間表現を学習する。
マルチモーダル機械翻訳のための微調整を行うと、これらのモデルが最先端の性能を得ることを示す。
- 参考スコア(独自算出の注目度): 36.4592103797139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models have been shown to improve performance in many
natural language tasks substantially. Although the early focus of such models
was single language pre-training, recent advances have resulted in
cross-lingual and visual pre-training methods. In this paper, we combine these
two approaches to learn visually-grounded cross-lingual representations.
Specifically, we extend the translation language modelling (Lample and Conneau,
2019) with masked region classification and perform pre-training with three-way
parallel vision & language corpora. We show that when fine-tuned for multimodal
machine translation, these models obtain state-of-the-art performance. We also
provide qualitative insights into the usefulness of the learned grounded
representations.
- Abstract(参考訳): 事前学習された言語モデルは、多くの自然言語タスクのパフォーマンスを実質的に改善することが示されている。
これらのモデルの初期の焦点は単一言語前訓練であったが、近年の進歩により言語間および視覚前訓練法が確立された。
本論文では,これら2つのアプローチを組み合わせ,視覚に基づくクロスリンガル表現を学習する。
具体的には,翻訳言語モデル(lample and conneau, 2019)をマスキング領域分類で拡張し,3方向並列視覚と言語コーパスで事前学習を行う。
マルチモーダル機械翻訳のための微調整を行うと、これらのモデルが最先端の性能を得ることを示す。
また,学習した基底表現の有用性に関する質的な洞察も提供する。
関連論文リスト
- Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - A Survey of Vision-Language Pre-training from the Lens of Multimodal
Machine Translation [13.426403221815063]
本稿では,マルチモーダル機械翻訳のレンズによる言語とビジョンの事前学習の状況について調査する。
我々は、共通アーキテクチャ、事前学習目的、文献からのデータセットを要約し、マルチモーダル機械翻訳の進展に何が必要かを推測する。
論文 参考訳(メタデータ) (2023-06-12T15:56:10Z) - RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。
6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-13T14:41:05Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。