論文の概要: Scaling Laws for Mixture Pretraining Under Data Constraints
- arxiv url: http://arxiv.org/abs/2605.12715v2
- Date: Fri, 15 May 2026 17:01:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:25.960655
- Title: Scaling Laws for Mixture Pretraining Under Data Constraints
- Title(参考訳): データ制約下における混合事前学習のスケーリング法則
- Authors: Anastasiia Sedova, Skyler Seto, Natalie Schluter, Pierre Ablin,
- Abstract要約: 一般的な戦略は、少ないが価値のあるターゲットデータと豊富な汎用データを組み合わせることである。
このトレードオフを2000以上の言語モデルトレーニングランで研究する。
繰り返しは、ターゲットドメインのパフォーマンスの中心的な要因であることがわかった。
- 参考スコア(独自算出の注目度): 20.29616657791023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As language models scale, the amount of data they require grows -- yet many target data sources, such as low-resource languages or specialized domains, are inherently limited in size. A common strategy is to mix this scarce but valuable target data with abundant generic data, which presents a fundamental trade-off: too little target data in the mixture underexposes the model to the target domain, while too much target data repeats the same examples excessively, yielding diminishing returns and eventual overfitting. We study this trade-off across more than 2,000 language-model training runs spanning multiple model and target dataset sizes, as well as several data types, including multilingual, domain-specific, and quality-filtered mixtures. Across all settings, we find that repetition is a central driver of target-domain performance, and that mixture training tolerates much higher repetition than single-source training: scarce target corpora can be reused 15-20 times, with the optimal number of repetitions depending on the target data size, compute budget, and model scale. Next, we introduce a repetition-aware mixture scaling law that accounts for the decreasing value of repeated target tokens and the regularizing role of generic data. Optimizing the scaling law provides a principled way to compute effective mixture configurations, yielding practical mixture recommendations for pretraining under data constraints.
- Abstract(参考訳): 言語モデルがスケールするにつれて、それらが必要とするデータ量が増えます -- しかし、低リソース言語や特殊なドメインといった多くのターゲットデータソースは、本質的にサイズに制限されています。
この希少だが価値のあるターゲットデータを豊富な汎用データと組み合わせることが一般的な戦略であり、これは基本的なトレードオフである:混在するターゲットデータが小さすぎるとターゲットドメインに過小評価され、ターゲットデータが多すぎると、同じ例を過度に繰り返すため、リターンが減少し、最終的なオーバーフィッティングが発生する。
複数のモデルとターゲットデータセットサイズにまたがる2000以上の言語モデルトレーニングと、マルチリンガル、ドメイン固有、品質フィルタの混合を含む複数のデータタイプを対象とする、このトレードオフについて検討する。
すべての設定において、反復は目標ドメインのパフォーマンスの中心的な要因であり、混合トレーニングは単一ソーストレーニングよりもはるかに高い繰り返しを許容する: 少ないターゲットコーパスは15~20回再利用でき、ターゲットデータサイズ、計算予算、モデルスケールによって最適な回数が繰り返される。
次に、繰り返しターゲットトークンの値の減少とジェネリックデータの正規化の役割を考慮に入れた繰り返し対応混合スケーリング法を導入する。
スケーリング法則の最適化は、効果的な混合構成を計算するための原則化された方法を提供し、データ制約の下で事前トレーニングを行うための実践的な混合レコメンデーションを提供する。
関連論文リスト
- InfoLaw: Information Scaling Laws for Large Language Models with Quality-Weighted Mixture Data and Repetition [18.346630567592733]
LLMプリトレーニングにおける高品質なデータのアップウェイト化は、しばしば性能を改善するが、特に過度のトレーニング下では、より強力なアップウェイト化は繰り返しを増大させ、性能を低下させる可能性がある。
我々はInfoLawを紹介した。これは、消費トークン、モデルサイズ、データ混合重量、繰り返しからの損失を予測する、データ対応のスケーリングフレームワークである。
論文 参考訳(メタデータ) (2026-05-04T09:07:54Z) - The interplay between domain specialization and model size [8.653321928148547]
計算制約シナリオ下での継続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。
我々の目標は、このシナリオに最適なトレーニング体制を特定し、異なるモデルサイズとドメインにまたがって一般化可能な、この相互作用のパターンを検出することです。
論文 参考訳(メタデータ) (2025-01-03T19:28:53Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Scaling Data-Constrained Language Models [133.2083255645999]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。