論文の概要: nmT5 -- Is parallel data still relevant for pre-training massively
multilingual language models?
- arxiv url: http://arxiv.org/abs/2106.02171v1
- Date: Thu, 3 Jun 2021 23:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 15:11:05.284564
- Title: nmT5 -- Is parallel data still relevant for pre-training massively
multilingual language models?
- Title(参考訳): nmt5 -- 大規模多言語モデルの事前学習にはまだ並列データが関連しているか?
- Authors: Mihir Kale, Aditya Siddhant, Noah Constant, Melvin Johnson, Rami
Al-Rfou, Linting Xue
- Abstract要約: 本研究は,mT5事前学習における並列データの導入が及ぼす影響について考察する。
機械翻訳などの目的を持つマルチタスク言語モデリングは,性能向上のための簡単な方法であることがわかった。
- 参考スコア(独自算出の注目度): 9.560948239388662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, mT5 - a massively multilingual version of T5 - leveraged a unified
text-to-text format to attain state-of-the-art results on a wide variety of
multilingual NLP tasks. In this paper, we investigate the impact of
incorporating parallel data into mT5 pre-training. We find that multi-tasking
language modeling with objectives such as machine translation during
pre-training is a straightforward way to improve performance on downstream
multilingual and cross-lingual tasks. However, the gains start to diminish as
the model capacity increases, suggesting that parallel data might not be as
essential for larger models. At the same time, even at larger model sizes, we
find that pre-training with parallel data still provides benefits in the
limited labelled data regime.
- Abstract(参考訳): 最近、mT5はT5の膨大な多言語バージョンであり、統一されたテキストからテキストへのフォーマットを利用して、多言語NLPタスクの最先端結果を得た。
本稿では,mT5事前学習における並列データの導入の影響について検討する。
事前学習中の機械翻訳などの目的を持つマルチタスク言語モデリングは、下流の多言語および多言語タスクにおけるパフォーマンスを向上させるための簡単な方法である。
しかし、モデルキャパシティが増加するにつれて、利得は減少し始めており、大きなモデルでは並列データが重要でない可能性がある。
同時に、より大きなモデルサイズであっても、並列データによる事前トレーニングは、限られたラベル付きデータ構造にメリットをもたらすことが分かっています。
関連論文リスト
- EMMA-500: Enhancing Massively Multilingual Adaptation of Large Language Models [50.459861376459656]
EMMA-500は546言語にわたるテキストで継続訓練された大規模多言語言語モデルである。
本結果は,大規模言語モデルの言語能力拡大における継続事前学習の有効性を強調した。
論文 参考訳(メタデータ) (2024-09-26T14:40:45Z) - Salute the Classic: Revisiting Challenges of Machine Translation in the
Age of Large Language Models [91.6543868677356]
ニューラルネットワーク翻訳の進化は、6つのコア課題の影響を受けている。
これらの課題には、ドメインミスマッチ、並列データの量、まれな単語予測、長文の翻訳、単語アライメントとしてのアテンションモデル、そして準最適ビームサーチが含まれる。
この研究はこれらの課題を再考し、先進的な大規模言語モデルにおけるそれらの継続的な関連性についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-16T13:30:09Z) - mLongT5: A Multilingual and Efficient Text-To-Text Transformer for
Longer Sequences [17.461172187276734]
このモデルはLongT5のアーキテクチャに基づいており、mT5の事前トレーニングに使用される多言語データセットとUL2の事前トレーニングタスクを活用している。
このモデルを多言語要約および質問応答タスクで評価し,mBARTやM-BERTのような既存の多言語モデルと比較して,mLongT5の性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-05-18T17:22:53Z) - PEACH: Pre-Training Sequence-to-Sequence Multilingual Models for
Translation with Semi-Supervised Pseudo-Parallel Document Generation [5.004814662623874]
本稿では,多言語事前学習のための高品質な擬似並列データを生成する,新しい半教師付きSPDGを提案する。
実験の結果, PEACH はmT5 と mBART を様々な翻訳タスクで訓練する上で, 既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-03T18:19:26Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - Bootstrapping Multilingual Semantic Parsers using Large Language Models [28.257114724384806]
複数の言語にまたがって英語データセットを転送するTranslation-trainパラダイムは、タスク固有の多言語モデルをトレーニングする上で重要な要素である。
本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2022-10-13T19:34:14Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。