論文の概要: Larger-Scale Transformers for Multilingual Masked Language Modeling
- arxiv url: http://arxiv.org/abs/2105.00572v1
- Date: Sun, 2 May 2021 23:15:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 23:58:31.972260
- Title: Larger-Scale Transformers for Multilingual Masked Language Modeling
- Title(参考訳): 多言語マスキング言語モデリングのための大規模トランスフォーマー
- Authors: Naman Goyal, Jingfei Du, Myle Ott, Giri Anantharaman, Alexis Conneau
- Abstract要約: XLM-R XLとXLM-R XXLはXLM-Rよりも1.8%、XNLIの平均精度は2.4%向上した。
また、GLUEベンチマークの英語タスクのRoBERTa-Largeモデルを平均0.3%上回り、99以上の言語を扱う。
- 参考スコア(独自算出の注目度): 16.592883204398518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has demonstrated the effectiveness of cross-lingual language
model pretraining for cross-lingual understanding. In this study, we present
the results of two larger multilingual masked language models, with 3.5B and
10.7B parameters. Our two new models dubbed XLM-R XL and XLM-R XXL outperform
XLM-R by 1.8% and 2.4% average accuracy on XNLI. Our model also outperforms the
RoBERTa-Large model on several English tasks of the GLUE benchmark by 0.3% on
average while handling 99 more languages. This suggests pretrained models with
larger capacity may obtain both strong performance on high-resource languages
while greatly improving low-resource languages. We make our code and models
publicly available.
- Abstract(参考訳): 近年,言語間理解のための言語間モデルの事前学習の有効性が実証されている。
本研究では, 3.5B と 10.7B のパラメータを持つ多言語マスキング言語モデルについて述べる。
XLM-R XLとXLM-R XXLはXLM-Rよりも1.8%、XNLIの平均精度は2.4%向上した。
また、GLUEベンチマークの英語タスクのRoBERTa-Largeモデルを平均0.3%上回り、99以上の言語を扱う。
このことは、事前訓練されたモデルにより、高リソース言語の性能と低リソース言語の性能を両立させることができることを示唆している。
コードとモデルを公開しています。
関連論文リスト
- Xmodel-1.5: An 1B-scale Multilingual LLM [4.298869484709548]
2兆のトークンで事前訓練された多言語大言語モデルであるXmodel-1.5を紹介する。
Xmodel-1.5は65,280個のトークンを持つカスタムユニグラムトークンライザを採用し、効率と精度の両方を最適化している。
このモデルは、タイ語、アラビア語、フランス語、中国語、英語など、複数の言語で競合する結果をもたらす。
論文 参考訳(メタデータ) (2024-11-15T10:01:52Z) - From N-grams to Pre-trained Multilingual Models For Language Identification [0.35760345713831954]
南アフリカの11言語を対象として,N-gramモデルとLarge-trained Multilingual Model for Language Identification (LID)について検討した。
N-gramモデルでは、対象言語の効果的な周波数分布を確立するためには、有効なデータサイズ選択が不可欠であることを示す。
我々は,SerengetiがN-gramsからTransformerに平均して優れたモデルであることを示す。
論文 参考訳(メタデータ) (2024-10-11T11:35:57Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Beyond English-Centric Bitexts for Better Multilingual Language
Representation Learning [99.42850643947439]
我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。
XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
論文 参考訳(メタデータ) (2022-10-26T17:16:52Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。