Fugu-MT 論文翻訳(概要): Larger-Scale Transformers for Multilingual Masked Language Modeling

論文の概要: Larger-Scale Transformers for Multilingual Masked Language Modeling

arxiv url: http://arxiv.org/abs/2105.00572v1
Date: Sun, 2 May 2021 23:15:02 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-04 23:58:31.972260
Title: Larger-Scale Transformers for Multilingual Masked Language Modeling
Title（参考訳）: 多言語マスキング言語モデリングのための大規模トランスフォーマー
Authors: Naman Goyal, Jingfei Du, Myle Ott, Giri Anantharaman, Alexis Conneau
Abstract要約: XLM-R XLとXLM-R XXLはXLM-Rよりも1.8%、XNLIの平均精度は2.4%向上した。また、GLUEベンチマークの英語タスクのRoBERTa-Largeモデルを平均0.3%上回り、99以上の言語を扱う。
参考スコア（独自算出の注目度）: 16.592883204398518
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work has demonstrated the effectiveness of cross-lingual language model pretraining for cross-lingual understanding. In this study, we present the results of two larger multilingual masked language models, with 3.5B and 10.7B parameters. Our two new models dubbed XLM-R XL and XLM-R XXL outperform XLM-R by 1.8% and 2.4% average accuracy on XNLI. Our model also outperforms the RoBERTa-Large model on several English tasks of the GLUE benchmark by 0.3% on average while handling 99 more languages. This suggests pretrained models with larger capacity may obtain both strong performance on high-resource languages while greatly improving low-resource languages. We make our code and models publicly available.
Abstract（参考訳）: 近年,言語間理解のための言語間モデルの事前学習の有効性が実証されている。本研究では, 3.5B と 10.7B のパラメータを持つ多言語マスキング言語モデルについて述べる。 XLM-R XLとXLM-R XXLはXLM-Rよりも1.8%、XNLIの平均精度は2.4%向上した。また、GLUEベンチマークの英語タスクのRoBERTa-Largeモデルを平均0.3%上回り、99以上の言語を扱う。このことは、事前訓練されたモデルにより、高リソース言語の性能と低リソース言語の性能を両立させることができることを示唆している。コードとモデルを公開しています。

関連論文リスト

Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文参考訳（メタデータ） (2025-07-18T03:19:43Z)
Xmodel-1.5: An 1B-scale Multilingual LLM [4.298869484709548]
2兆のトークンで事前訓練された多言語大言語モデルであるXmodel-1.5を紹介する。 Xmodel-1.5は65,280個のトークンを持つカスタムユニグラムトークンライザを採用し、効率と精度の両方を最適化している。このモデルは、タイ語、アラビア語、フランス語、中国語、英語など、複数の言語で競合する結果をもたらす。
論文参考訳（メタデータ） (2024-11-15T10:01:52Z)
From N-grams to Pre-trained Multilingual Models For Language Identification [0.35760345713831954]
南アフリカの11言語を対象として,N-gramモデルとLarge-trained Multilingual Model for Language Identification (LID)について検討した。 N-gramモデルでは、対象言語の効果的な周波数分布を確立するためには、有効なデータサイズ選択が不可欠であることを示す。我々は,SerengetiがN-gramsからTransformerに平均して優れたモデルであることを示す。
論文参考訳（メタデータ） (2024-10-11T11:35:57Z)
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文参考訳（メタデータ） (2024-06-12T21:01:26Z)
On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文参考訳（メタデータ） (2023-11-14T00:43:33Z)
PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文参考訳（メタデータ） (2023-07-12T09:00:37Z)
Extrapolating Multilingual Understanding Models as Multilingual Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文参考訳（メタデータ） (2023-05-22T15:33:21Z)
Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning [99.42850643947439]
我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。 XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
論文参考訳（メタデータ） (2022-10-26T17:16:52Z)
mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文参考訳（メタデータ） (2022-04-15T13:02:33Z)
Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文参考訳（メタデータ） (2020-10-18T00:21:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。