論文の概要: Beyond English-Centric Bitexts for Better Multilingual Language
Representation Learning
- arxiv url: http://arxiv.org/abs/2210.14867v1
- Date: Wed, 26 Oct 2022 17:16:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 13:09:50.745614
- Title: Beyond English-Centric Bitexts for Better Multilingual Language
Representation Learning
- Title(参考訳): 多言語表現学習のための英語中心のバイテキストを超えて
- Authors: Barun Patra, Saksham Singhal, Shaohan Huang, Zewen Chi, Li Dong, Furu
Wei, Vishrav Chaudhary and Xia Song
- Abstract要約: 我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。
XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
- 参考スコア(独自算出の注目度): 99.42850643947439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we elaborate upon recipes for building multilingual
representation models that are not only competitive with existing
state-of-the-art models but are also more parameter efficient, thereby
promoting better adoption in resource-constrained scenarios and practical
applications. We show that going beyond English-centric bitexts, coupled with a
novel sampling strategy aimed at reducing under-utilization of training data,
substantially boosts performance across model sizes for both Electra and MLM
pre-training objectives. We introduce XY-LENT: X-Y bitext enhanced Language
ENcodings using Transformers which not only achieves state-of-the-art
performance over 5 cross-lingual tasks within all model size bands, is also
competitive across bands. Our XY-LENT XL variant outperforms XLM-RXXL and
exhibits competitive performance with mT5 XXL while being 5x and 6x smaller
respectively. We then show that our proposed method helps ameliorate the curse
of multilinguality, with the XY-LENT XL achieving 99.3% GLUE performance and
98.5% SQuAD 2.0 performance compared to a SoTA English only model in the same
size band. We then analyze our models performance on extremely low resource
languages and posit that scaling alone may not be sufficient for improving the
performance in this scenario
- Abstract(参考訳): 本稿では,既存の最先端モデルと競合するだけでなく,パラメータ効率のよい多言語表現モデルを構築するためのレシピについて詳述する。
Electra と MLM の事前学習目標に対して,英語中心のbitext を超えて,トレーニングデータの低活用化を目的とした新たなサンプリング戦略が組み合わさって,モデルサイズにおける性能を大幅に向上させることを示す。
XY-LENT: X-Y bitext拡張Language ENcodings using Transformersは、すべてのモデルサイズバンド内で5つの言語間タスクで最先端のパフォーマンスを達成するだけでなく、バンド間で競合する。
XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
提案手法により,xy-lent xlは99.3%のグルー性能と98.5% squad 2.0 性能を達成し,同サイズ帯の sota english モデルと比較し,多言語性の呪いを和らげる効果を示した。
そして、非常に低いリソース言語でモデルのパフォーマンスを分析し、このシナリオのパフォーマンスを改善するのにスケーリングだけでは十分ではないと仮定します。
関連論文リスト
- Breaking the Curse of Multilinguality with Cross-lingual Expert Language
Models [115.62676875284696]
X-ELM(X-Langual Expert Language Models、X-ELM)は、X-ELMを異なる言語に専門化するプロセスである。
新しい専門家を反復的に追加し、破滅的な忘れをせずに新しい言語にX-ELMを適用する。
論文 参考訳(メタデータ) (2024-01-19T01:07:50Z) - DistilXLSR: A Light Weight Cross-Lingual Speech Representation Model [16.31307448314024]
蒸留言語間音声表現モデルであるDistilXLSRを提案する。
既存の音声の音素をランダムにシャッフルすることにより、言語情報を減らし、英語データのみを用いて言語間モデルを蒸留する。
本手法は,様々な言語/教師モデルに対して一般化可能であることが証明され,英語事前学習モデルの言語間性能を向上させる可能性がある。
論文 参考訳(メタデータ) (2023-06-02T07:03:06Z) - EMS: Efficient and Effective Massively Multilingual Sentence
Representation Learning [31.225252462128626]
本稿では,言語横断文再構成(XTR)と文レベルのコントラスト学習を訓練目的として,効率的かつ効果的な多言語文表現学習(EMS)を導入する。
関連する研究と比較すると,提案したモデルは,非常に少ない並列文とGPU計算資源を用いて効率的に訓練することができる。
62言語をサポートするモデルトレーニング用コードとEMS事前訓練モデルをリリースする。
論文 参考訳(メタデータ) (2022-05-31T12:29:25Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Larger-Scale Transformers for Multilingual Masked Language Modeling [16.592883204398518]
XLM-R XLとXLM-R XXLはXLM-Rよりも1.8%、XNLIの平均精度は2.4%向上した。
また、GLUEベンチマークの英語タスクのRoBERTa-Largeモデルを平均0.3%上回り、99以上の言語を扱う。
論文 参考訳(メタデータ) (2021-05-02T23:15:02Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。