論文の概要: Scaling Laws for Multilingual Language Models
- arxiv url: http://arxiv.org/abs/2410.12883v1
- Date: Tue, 15 Oct 2024 20:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:38.126622
- Title: Scaling Laws for Multilingual Language Models
- Title(参考訳): 多言語言語モデルのスケーリング法則
- Authors: Yifei He, Alon Benhaim, Barun Patra, Praneetha Vaddamanu, Sanchit Ahuja, Parul Chopra, Vishrav Chaudhary, Han Zhao, Xia Song,
- Abstract要約: 多言語スケーリングの研究における主要な課題は、言語間移動による個々の言語性能の分析が困難であることである。
本稿では,各言語群に対するクロスエントロピー損失が,それぞれのサンプリング比でのみ決定されるという仮説を導入し,検証する。
性能とデータセットサイズ,モデルサイズ,サンプリング比率を関連づける,ゆるい関係を導出する。
- 参考スコア(独自算出の注目度): 41.6318470003173
- License:
- Abstract: We propose a novel scaling law for general-purpose decoder-only language models (LMs) trained on multilingual data, addressing the problem of balancing languages during multilingual pretraining. A primary challenge in studying multilingual scaling is the difficulty of analyzing individual language performance due to cross-lingual transfer. To address this, we shift the focus from individual languages to language families. We introduce and validate a hypothesis that the test cross-entropy loss for each language family is determined solely by its own sampling ratio, independent of other languages in the mixture. This insight simplifies the complexity of multilingual scaling and make the analysis scalable to an arbitrary number of languages. Building on this hypothesis, we derive a power-law relationship that links performance with dataset size, model size and sampling ratios. This relationship enables us to predict performance across various combinations of the above three quantities, and derive the optimal sampling ratios at different model scales. To demonstrate the effectiveness and accuracy of our proposed scaling law, we perform a large-scale empirical study, training more than 100 models on 23 languages spanning 5 language families. Our experiments show that the optimal sampling ratios derived from small models (85M parameters) generalize effectively to models that are several orders of magnitude larger (1.2B parameters), offering a resource-efficient approach for multilingual LM training at scale.
- Abstract(参考訳): 本稿では,多言語データに基づく汎用デコーダ専用言語モデル(LM)のスケーリング法を提案し,多言語事前学習における言語バランスの問題に対処する。
多言語スケーリングの研究における主要な課題は、言語間移動による個々の言語性能の分析が困難であることである。
これを解決するために、個々の言語から言語家族へと焦点を移します。
本研究は,各言語群におけるクロスエントロピー損失が,混合中の他の言語とは独立に,それぞれのサンプリング比によってのみ決定されるという仮説を導入し,検証する。
この洞察は、多言語スケーリングの複雑さを単純化し、分析を任意の言語にスケーラブルにする。
この仮説に基づいて、我々は、データセットサイズ、モデルサイズ、サンプリング比率とパフォーマンスを関連付けるパワー-ロー関係を導出する。
この関係により、上記の3つの組み合わせの様々な性能を予測し、異なるモデルスケールでの最適なサンプリング比を導出することができる。
提案法の有効性と精度を実証するために,5つの言語ファミリーにまたがる23言語を対象に,100以上のモデルを訓練した大規模実証的研究を行った。
実験の結果,小モデル (85M パラメータ) から得られた最適サンプリング比は,数桁大きなモデル (1.2B パラメータ) に効果的に一般化され,大規模マルチリンガルLM トレーニングにおける資源効率のよいアプローチが得られた。
関連論文リスト
- Optimizing Low-Resource Language Model Training: Comprehensive Analysis of Multi-Epoch, Multi-Lingual, and Two-Stage Approaches [3.809045695573932]
既存の作業では、制限対象の言語コーパスを効率的に活用するために、マルチエポック、多言語、二段階の訓練が採用されている。
我々は、これらの3つのアプローチを組み合わせて、低リソース言語LLMのトレーニング設定を徹底的に検討する。
対象言語コーパスの量が減少するにつれて、最適トレーニングアプローチは、単言語単段階訓練から、計算予算依存しきい値における多言語二段階訓練へと移行する。
論文 参考訳(メタデータ) (2024-10-16T07:45:56Z) - Do Multilingual Large Language Models Mitigate Stereotype Bias? [9.31741279000585]
この研究は、英語、ドイツ語、フランス語、イタリア語、スペイン語で同じ大きさの6つのLLMを体系的に訓練する。
単言語モデルと比較して,多言語モデルの方がバイアスの低いだけでなく,予測精度も優れていることが観察された。
論文 参考訳(メタデータ) (2024-07-08T08:46:50Z) - Targeted Multilingual Adaptation for Low-resource Language Families [17.212424929235624]
我々は、事前学習されたモデルを言語族に適応させるためのベストプラクティスについて研究する。
適応モデルは単言語および多言語ベースラインを大きく上回る。
低リソース言語は、高リソース言語のパフォーマンスをほとんど犠牲にすることなく、トレーニング中に積極的にアップサンプリングできる。
論文 参考訳(メタデータ) (2024-05-20T23:38:06Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - UniMax: Fairer and more Effective Language Sampling for Large-Scale
Multilingual Pretraining [92.3702056505905]
我々は,尾語への過剰適合を軽減しつつ,より均一なヘッド言語カバレッジを提供する新しいサンプリング手法UniMaxを提案する。
We found that UniMax are outperforming standard temperature-based sample, and the benefit persistent as scale increased。
論文 参考訳(メタデータ) (2023-04-18T17:45:50Z) - Scaling Laws for Multilingual Neural Machine Translation [45.620062316968976]
モデルサイズの増加がモデル性能に与える影響について検討し,スケーリング行動におけるトレーニング混合物組成の役割について検討した。
学習混合物中の個々の言語ペアの重み付けの変化は,スケーリング法則の乗法的要因にのみ影響することがわかった。
我々は、どんな言語重み付けでも訓練された多言語モデルの性能を予測するために、我々の観測を活用している。
論文 参考訳(メタデータ) (2023-02-19T18:43:24Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Towards Zero-Shot Multilingual Synthetic Question and Answer Generation
for Cross-Lingual Reading Comprehension [20.570539023748424]
本稿では,多言語質問と解答ペアを大規模に生成する簡単な方法を提案する。
これらの合成サンプルは、ターゲット言語上の多言語QAモデルのゼロショット性能を改善するために使用できる。
論文 参考訳(メタデータ) (2020-10-22T19:59:37Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。