Fugu-MT 論文翻訳(概要): Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning

論文の概要: Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning

arxiv url: http://arxiv.org/abs/2210.14867v1
Date: Wed, 26 Oct 2022 17:16:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-27 13:09:50.745614
Title: Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning
Title（参考訳）: 多言語表現学習のための英語中心のバイテキストを超えて
Authors: Barun Patra, Saksham Singhal, Shaohan Huang, Zewen Chi, Li Dong, Furu Wei, Vishrav Chaudhary and Xia Song
Abstract要約: 我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。 XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
参考スコア（独自算出の注目度）: 99.42850643947439
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we elaborate upon recipes for building multilingual representation models that are not only competitive with existing state-of-the-art models but are also more parameter efficient, thereby promoting better adoption in resource-constrained scenarios and practical applications. We show that going beyond English-centric bitexts, coupled with a novel sampling strategy aimed at reducing under-utilization of training data, substantially boosts performance across model sizes for both Electra and MLM pre-training objectives. We introduce XY-LENT: X-Y bitext enhanced Language ENcodings using Transformers which not only achieves state-of-the-art performance over 5 cross-lingual tasks within all model size bands, is also competitive across bands. Our XY-LENT XL variant outperforms XLM-RXXL and exhibits competitive performance with mT5 XXL while being 5x and 6x smaller respectively. We then show that our proposed method helps ameliorate the curse of multilinguality, with the XY-LENT XL achieving 99.3% GLUE performance and 98.5% SQuAD 2.0 performance compared to a SoTA English only model in the same size band. We then analyze our models performance on extremely low resource languages and posit that scaling alone may not be sufficient for improving the performance in this scenario
Abstract（参考訳）: 本稿では,既存の最先端モデルと競合するだけでなく,パラメータ効率のよい多言語表現モデルを構築するためのレシピについて詳述する。 Electra と MLM の事前学習目標に対して,英語中心のbitext を超えて,トレーニングデータの低活用化を目的とした新たなサンプリング戦略が組み合わさって,モデルサイズにおける性能を大幅に向上させることを示す。 XY-LENT: X-Y bitext拡張Language ENcodings using Transformersは、すべてのモデルサイズバンド内で5つの言語間タスクで最先端のパフォーマンスを達成するだけでなく、バンド間で競合する。 XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。提案手法により,xy-lent xlは99.3%のグルー性能と98.5% squad 2.0 性能を達成し,同サイズ帯の sota english モデルと比較し,多言語性の呪いを和らげる効果を示した。そして、非常に低いリソース言語でモデルのパフォーマンスを分析し、このシナリオのパフォーマンスを改善するのにスケーリングだけでは十分ではないと仮定します。

関連論文リスト

NeoBabel: A Multilingual Open Tower for Visual Generation [32.79724699684266]
我々は,新しい多言語画像生成フレームワークNeoBabelを紹介する。英語、中国語、オランダ語、フランス語、ヒンディー語、ペルシア語という6つの言語をサポートしている。それは、強い英語能力を維持しながら、最先端の多言語のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-08T16:19:45Z)
Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文参考訳（メタデータ） (2025-05-24T12:31:27Z)
The Impact of Model Scaling on Seen and Unseen Language Performance [2.012425476229879]
本研究では204言語にわたる多言語大言語モデルの性能とスケーリングの挙動について検討する。その結果,ゼロショットシナリオと2ショットシナリオのスケーリング挙動に有意な差が認められた。 2ショット設定では、より大きなモデルは多言語テキスト分類において明確な線形改善を示す。
論文参考訳（メタデータ） (2025-01-10T00:10:21Z)
The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文参考訳（メタデータ） (2024-05-02T14:49:50Z)
Multilingual Sentence-T5: Scalable Sentence Encoders for Multilingual Applications [4.240899165468488]
NLIに基づく多言語文埋め込みのモデルとして,Multilingual Sentence T5(m-ST5)を導入する。低ランク適応(LoRA)技術を用いることで、モデルのサイズを570億のパラメータに拡張することに成功した。特に、リソースが少ない言語や、英語との言語的類似性が低い言語は、パラメータの増加の恩恵を受けていた。
論文参考訳（メタデータ） (2024-03-26T09:31:55Z)
Breaking the Curse of Multilinguality with Cross-lingual Expert Language Models [110.10545153845051]
X-ELM(X-Langual Expert Language Models、X-ELM)は、X-ELMを異なる言語に専門化するプロセスである。新しい専門家を反復的に追加し、破滅的な忘れをせずに新しい言語にX-ELMを適用する。
論文参考訳（メタデータ） (2024-01-19T01:07:50Z)
EMS: Efficient and Effective Massively Multilingual Sentence Embedding Learning [38.928786416891924]
我々は,クロスリンガルトークンレベル再構築(XTR)と文レベルのコントラスト学習を訓練目的として,効率的で効果的な多言語文埋め込み(EMS)を導入する。関連する研究と比較すると,提案したモデルは,非常に少ない並列文とGPU計算資源を用いて効率的に訓練することができる。我々は、62言語をサポートするモデルトレーニング用コードと、EMS事前訓練文埋め込みモデルをリリースする。
論文参考訳（メタデータ） (2022-05-31T12:29:25Z)
PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文参考訳（メタデータ） (2022-04-05T16:11:45Z)
Larger-Scale Transformers for Multilingual Masked Language Modeling [16.592883204398518]
XLM-R XLとXLM-R XXLはXLM-Rよりも1.8%、XNLIの平均精度は2.4%向上した。また、GLUEベンチマークの英語タスクのRoBERTa-Largeモデルを平均0.3%上回り、99以上の言語を扱う。
論文参考訳（メタデータ） (2021-05-02T23:15:02Z)
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文参考訳（メタデータ） (2020-12-31T11:37:28Z)
Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文参考訳（メタデータ） (2020-10-18T00:21:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。