論文の概要: Multilingual Multimodal Learning with Machine Translated Text
- arxiv url: http://arxiv.org/abs/2210.13134v1
- Date: Mon, 24 Oct 2022 11:41:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 13:56:01.248586
- Title: Multilingual Multimodal Learning with Machine Translated Text
- Title(参考訳): 機械翻訳テキストを用いた多言語マルチモーダル学習
- Authors: Chen Qiu, Dan Oneata, Emanuele Bugliarello, Stella Frank, Desmond
Elliott
- Abstract要約: 英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
- 参考スコア(独自算出の注目度): 27.7207234512674
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most vision-and-language pretraining research focuses on English tasks.
However, the creation of multilingual multimodal evaluation datasets (e.g.
Multi30K, xGQA, XVNLI, and MaRVL) poses a new challenge in finding high-quality
training data that is both multilingual and multimodal. In this paper, we
investigate whether machine translating English multimodal data can be an
effective proxy for the lack of readily available multilingual data. We call
this framework TD-MML: Translated Data for Multilingual Multimodal Learning,
and it can be applied to any multimodal dataset and model. We apply it to both
pretraining and fine-tuning data with a state-of-the-art model. In order to
prevent models from learning from low-quality translated text, we propose two
metrics for automatically removing such translations from the resulting
datasets. In experiments on five tasks across 20 languages in the IGLUE
benchmark, we show that translated data can provide a useful signal for
multilingual multimodal learning, both at pretraining and fine-tuning.
- Abstract(参考訳): 視覚と言語に関するほとんどの事前学習研究は英語の課題に焦点を当てている。
しかし、マルチリンガルなマルチモーダル評価データセット(Multi30K、xGQA、XVNLI、MARVL)の作成は、マルチリンガルとマルチモーダルの両方である高品質なトレーニングデータを見つける上で新たな課題となる。
本稿では,英語マルチモーダルデータの機械翻訳が,手軽に利用できる多言語データの欠如に対する効果的なプロキシとなるかを検討する。
マルチリンガル・マルチモーダル・ラーニングのための翻訳データであり、任意のマルチモーダル・データセットとモデルに適用することができる。
最先端モデルを用いて事前学習と微調整の両方に応用する。
低品質の翻訳文からモデルが学習することを防止するために,得られたデータセットから翻訳文を自動的に取り除くための2つの指標を提案する。
iglueベンチマークで20言語にまたがる5つのタスクに関する実験で、翻訳されたデータは、事前学習と微調整の両方において、多言語マルチモーダル学習に有用な信号を提供できることを示した。
関連論文リスト
- PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Meta-learning For Vision-and-language Cross-lingual Transfer [14.594704809280984]
バイソン言語モデルのための新しいメタラーニング微調整フレームワークを提案する。
我々のフレームワークは、現在のPVLMを視覚言語シナリオにおける新しい言語に迅速に適応させる。
本手法は, ゼロショットと少数ショットのクロスランガル転送において, 現在のPVLMの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-24T07:51:42Z) - Large Scale Multi-Lingual Multi-Modal Summarization Dataset [26.92121230628835]
現在最大の多言語マルチモーダル要約データセット(M3LS)を提示する。
それは100万以上のドキュメントイメージペアのインスタンスと、それぞれに専門的な注釈付きマルチモーダル要約で構成されています。
また、13言語に対する最大の要約データセットであり、2言語に対する言語間要約データで構成されている。
論文 参考訳(メタデータ) (2023-02-13T18:00:23Z) - Bootstrapping Multilingual Semantic Parsers using Large Language Models [28.257114724384806]
複数の言語にまたがって英語データセットを転送するTranslation-trainパラダイムは、タスク固有の多言語モデルをトレーニングする上で重要な要素である。
本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2022-10-13T19:34:14Z) - Towards the Next 1000 Languages in Multilingual Machine Translation:
Exploring the Synergy Between Supervised and Self-Supervised Learning [48.15259834021655]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。
私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。
この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文 参考訳(メタデータ) (2022-01-09T23:36:44Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Multi-task Learning for Multilingual Neural Machine Translation [32.81785430242313]
本稿では,bitextデータ上での翻訳タスクと,モノリンガルデータ上での2つの認知タスクを併用してモデルを学習するマルチタスク学習フレームワークを提案する。
提案手法は,高リソース言語と低リソース言語の両方の翻訳品質を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-10-06T06:54:12Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。