論文の概要: Larger-Scale Transformers for Multilingual Masked Language Modeling
- arxiv url: http://arxiv.org/abs/2105.00572v1
- Date: Sun, 2 May 2021 23:15:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 23:58:31.972260
- Title: Larger-Scale Transformers for Multilingual Masked Language Modeling
- Title(参考訳): 多言語マスキング言語モデリングのための大規模トランスフォーマー
- Authors: Naman Goyal, Jingfei Du, Myle Ott, Giri Anantharaman, Alexis Conneau
- Abstract要約: XLM-R XLとXLM-R XXLはXLM-Rよりも1.8%、XNLIの平均精度は2.4%向上した。
また、GLUEベンチマークの英語タスクのRoBERTa-Largeモデルを平均0.3%上回り、99以上の言語を扱う。
- 参考スコア(独自算出の注目度): 16.592883204398518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has demonstrated the effectiveness of cross-lingual language
model pretraining for cross-lingual understanding. In this study, we present
the results of two larger multilingual masked language models, with 3.5B and
10.7B parameters. Our two new models dubbed XLM-R XL and XLM-R XXL outperform
XLM-R by 1.8% and 2.4% average accuracy on XNLI. Our model also outperforms the
RoBERTa-Large model on several English tasks of the GLUE benchmark by 0.3% on
average while handling 99 more languages. This suggests pretrained models with
larger capacity may obtain both strong performance on high-resource languages
while greatly improving low-resource languages. We make our code and models
publicly available.
- Abstract(参考訳): 近年,言語間理解のための言語間モデルの事前学習の有効性が実証されている。
本研究では, 3.5B と 10.7B のパラメータを持つ多言語マスキング言語モデルについて述べる。
XLM-R XLとXLM-R XXLはXLM-Rよりも1.8%、XNLIの平均精度は2.4%向上した。
また、GLUEベンチマークの英語タスクのRoBERTa-Largeモデルを平均0.3%上回り、99以上の言語を扱う。
このことは、事前訓練されたモデルにより、高リソース言語の性能と低リソース言語の性能を両立させることができることを示唆している。
コードとモデルを公開しています。
関連論文リスト
- YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Beyond English-Centric Bitexts for Better Multilingual Language
Representation Learning [99.42850643947439]
我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。
XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
論文 参考訳(メタデータ) (2022-10-26T17:16:52Z) - Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。
我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-06-25T12:36:11Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Transferring Monolingual Model to Low-Resource Language: The Case of
Tigrinya [0.0]
本稿では,強力なソース言語モデルを採用するためのコスト効率のよいトランスファー学習手法を提案する。
与えられたTigrinya感情分析データセットの10k例だけで、英語のXLNetは78.88%のF1スコアを達成した。
CLSデータセット上の微調整(英: Fine-tuning)XLNetモデルでは,mBERTと比較して有望な結果が得られる。
論文 参考訳(メタデータ) (2020-06-13T18:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。