論文の概要: Beyond English-Centric Bitexts for Better Multilingual Language
Representation Learning
- arxiv url: http://arxiv.org/abs/2210.14867v1
- Date: Wed, 26 Oct 2022 17:16:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 13:09:50.745614
- Title: Beyond English-Centric Bitexts for Better Multilingual Language
Representation Learning
- Title(参考訳): 多言語表現学習のための英語中心のバイテキストを超えて
- Authors: Barun Patra, Saksham Singhal, Shaohan Huang, Zewen Chi, Li Dong, Furu
Wei, Vishrav Chaudhary and Xia Song
- Abstract要約: 我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。
XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
- 参考スコア(独自算出の注目度): 99.42850643947439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we elaborate upon recipes for building multilingual
representation models that are not only competitive with existing
state-of-the-art models but are also more parameter efficient, thereby
promoting better adoption in resource-constrained scenarios and practical
applications. We show that going beyond English-centric bitexts, coupled with a
novel sampling strategy aimed at reducing under-utilization of training data,
substantially boosts performance across model sizes for both Electra and MLM
pre-training objectives. We introduce XY-LENT: X-Y bitext enhanced Language
ENcodings using Transformers which not only achieves state-of-the-art
performance over 5 cross-lingual tasks within all model size bands, is also
competitive across bands. Our XY-LENT XL variant outperforms XLM-RXXL and
exhibits competitive performance with mT5 XXL while being 5x and 6x smaller
respectively. We then show that our proposed method helps ameliorate the curse
of multilinguality, with the XY-LENT XL achieving 99.3% GLUE performance and
98.5% SQuAD 2.0 performance compared to a SoTA English only model in the same
size band. We then analyze our models performance on extremely low resource
languages and posit that scaling alone may not be sufficient for improving the
performance in this scenario
- Abstract(参考訳): 本稿では,既存の最先端モデルと競合するだけでなく,パラメータ効率のよい多言語表現モデルを構築するためのレシピについて詳述する。
Electra と MLM の事前学習目標に対して,英語中心のbitext を超えて,トレーニングデータの低活用化を目的とした新たなサンプリング戦略が組み合わさって,モデルサイズにおける性能を大幅に向上させることを示す。
XY-LENT: X-Y bitext拡張Language ENcodings using Transformersは、すべてのモデルサイズバンド内で5つの言語間タスクで最先端のパフォーマンスを達成するだけでなく、バンド間で競合する。
XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
提案手法により,xy-lent xlは99.3%のグルー性能と98.5% squad 2.0 性能を達成し,同サイズ帯の sota english モデルと比較し,多言語性の呪いを和らげる効果を示した。
そして、非常に低いリソース言語でモデルのパフォーマンスを分析し、このシナリオのパフォーマンスを改善するのにスケーリングだけでは十分ではないと仮定します。
関連論文リスト
- The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Multilingual Sentence-T5: Scalable Sentence Encoders for Multilingual Applications [4.240899165468488]
NLIに基づく多言語文埋め込みのモデルとして,Multilingual Sentence T5(m-ST5)を導入する。
低ランク適応(LoRA)技術を用いることで、モデルのサイズを570億のパラメータに拡張することに成功した。
特に、リソースが少ない言語や、英語との言語的類似性が低い言語は、パラメータの増加の恩恵を受けていた。
論文 参考訳(メタデータ) (2024-03-26T09:31:55Z) - Breaking the Curse of Multilinguality with Cross-lingual Expert Language Models [110.10545153845051]
X-ELM(X-Langual Expert Language Models、X-ELM)は、X-ELMを異なる言語に専門化するプロセスである。
新しい専門家を反復的に追加し、破滅的な忘れをせずに新しい言語にX-ELMを適用する。
論文 参考訳(メタデータ) (2024-01-19T01:07:50Z) - EMS: Efficient and Effective Massively Multilingual Sentence Embedding Learning [38.928786416891924]
我々は,クロスリンガルトークンレベル再構築(XTR)と文レベルのコントラスト学習を訓練目的として,効率的で効果的な多言語文埋め込み(EMS)を導入する。
関連する研究と比較すると,提案したモデルは,非常に少ない並列文とGPU計算資源を用いて効率的に訓練することができる。
我々は、62言語をサポートするモデルトレーニング用コードと、EMS事前訓練文埋め込みモデルをリリースする。
論文 参考訳(メタデータ) (2022-05-31T12:29:25Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Larger-Scale Transformers for Multilingual Masked Language Modeling [16.592883204398518]
XLM-R XLとXLM-R XXLはXLM-Rよりも1.8%、XNLIの平均精度は2.4%向上した。
また、GLUEベンチマークの英語タスクのRoBERTa-Largeモデルを平均0.3%上回り、99以上の言語を扱う。
論文 参考訳(メタデータ) (2021-05-02T23:15:02Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。