論文の概要: Revisiting Multilingual Data Mixtures in Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2510.25947v1
- Date: Wed, 29 Oct 2025 20:46:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.565848
- Title: Revisiting Multilingual Data Mixtures in Language Model Pretraining
- Title(参考訳): 言語モデル事前学習における多言語データ混合の再検討
- Authors: Negar Foroutan, Paul Teiletche, Ayush Kumar Tarun, Antoine Bosselut,
- Abstract要約: 大規模言語モデルの事前学習における多言語データ混合の影響について検討する。
英語と多言語のデータの組み合わせは、いずれかのグループの言語内性能を劣化させるとは限らない。
トレーニング言語の数が増加するにつれて、重要な「多言語性の帰結」は観測されない。
- 参考スコア(独自算出の注目度): 20.282622416939997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The impact of different multilingual data mixtures in pretraining large language models (LLMs) has been a topic of ongoing debate, often raising concerns about potential trade-offs between language coverage and model performance (i.e., the curse of multilinguality). In this work, we investigate these assumptions by training 1.1B and 3B parameter LLMs on diverse multilingual corpora, varying the number of languages from 25 to 400. Our study challenges common beliefs surrounding multilingual training. First, we find that combining English and multilingual data does not necessarily degrade the in-language performance of either group, provided that languages have a sufficient number of tokens included in the pretraining corpus. Second, we observe that using English as a pivot language (i.e., a high-resource language that serves as a catalyst for multilingual generalization) yields benefits across language families, and contrary to expectations, selecting a pivot language from within a specific family does not consistently improve performance for languages within that family. Lastly, we do not observe a significant "curse of multilinguality" as the number of training languages increases in models at this scale. Our findings suggest that multilingual data, when balanced appropriately, can enhance language model capabilities without compromising performance, even in low-resource settings
- Abstract(参考訳): 大規模言語モデル(LLM)の事前訓練における異なる多言語データ混合の影響は議論の的となっており、言語カバレッジとモデルパフォーマンス(つまり多言語モデルの呪い)の間の潜在的なトレードオフに関する懸念がしばしば持ち上がっている。
本研究では,多言語コーパスにおける1.1B と 3B のパラメータ LLM を訓練することにより,これらの仮定を考察する。
本研究は多言語学習を取り巻く共通信念に挑戦する。
まず、事前学習コーパスに含まれる十分な数のトークンがある場合、英語と多言語データの組み合わせは、いずれかの言語の言語内性能を必ずしも劣化させるわけではない。
第二に、英語をピボット言語(すなわち、多言語一般化の触媒として機能する高リソース言語)として使うことは、言語ファミリー全体の利益をもたらすが、期待に反して、特定の家族内でピボット言語を選択することは、その家族内の言語の性能を一貫して改善しない。
最後に、このスケールのモデルにおいて、トレーニング言語の数が増加するにつれて、重要な「多言語性の帰結」は観測されない。
この結果から,低リソース環境においても,多言語データのバランスが適切であれば,性能を損なうことなく,言語モデルの能力を向上させることが可能であることが示唆された。
関連論文リスト
- Assessing the Role of Data Quality in Training Bilingual Language Models [17.603371705571107]
データ量だけでなく不平等なデータ品質も、バイリンガル設定のパフォーマンス劣化の主要な要因であることを示す。
本稿では,高品質な英語データのみを用いて,高品質なバイリンガル学習データを選択するための簡易かつ効果的なデータフィルタリング手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T21:08:51Z) - Breaking the Curse of Multilinguality with Cross-lingual Expert Language Models [110.10545153845051]
X-ELM(X-Langual Expert Language Models、X-ELM)は、X-ELMを異なる言語に専門化するプロセスである。
新しい専門家を反復的に追加し、破滅的な忘れをせずに新しい言語にX-ELMを適用する。
論文 参考訳(メタデータ) (2024-01-19T01:07:50Z) - Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed? [40.13166574854085]
英語中心の大規模言語モデルにおいて,多言語間の一般化を実現するために必要な最小限の多言語性について検討する。
複数言語から3言語までの多言語命令チューニングは,効果的な言語間一般化を実現するのに必要かつ十分であることがわかった。
論文 参考訳(メタデータ) (2023-12-20T00:49:52Z) - When Is Multilinguality a Curse? Language Modeling for 250 High- and
Low-Resource Languages [25.52470575274251]
私たちは250以上の言語で1万以上のモノリンガルおよび多言語言語モデルを事前訓練しています。
モデレーションでは、多言語データを追加することで、低リソース言語モデリングのパフォーマンスが向上する。
データセットのサイズが大きくなるにつれて、マルチリンガルデータの追加は、低リソース言語と高リソース言語の両方のパフォーマンスを損なうようになる。
論文 参考訳(メタデータ) (2023-11-15T18:47:42Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Probing Multilingual Language Models for Discourse [0.0]
XLM-RoBERTaファミリーのモデルが常に最高のパフォーマンスを示していることが分かりました。
また, モデル蒸留は, 文表現の言語間移動能力に悪影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-09T06:34:21Z) - How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文 参考訳(メタデータ) (2020-12-31T14:11:00Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。