論文の概要: BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining
- arxiv url: http://arxiv.org/abs/2508.10975v2
- Date: Tue, 19 Aug 2025 17:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 12:38:45.393786
- Title: BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining
- Title(参考訳): BeyondWeb: Trillion-scale Pretrainingのための合成データのスケーリングから学んだこと
- Authors: DatologyAI, :, Pratyush Maini, Vineeth Dorna, Parth Doshi, Aldo Carranza, Fan Pan, Jack Urbanek, Paul Burstein, Alex Fang, Alvin Deng, Amro Abbas, Brett Larsen, Cody Blakeney, Charvi Bannur, Christina Baek, Darren Teh, David Schwab, Haakon Mongstad, Haoli Yin, Josh Wills, Kaleigh Mentzer, Luke Merrick, Ricardo Monti, Rishabh Adiga, Siddharth Joshi, Spandan Das, Zhengping Wang, Bogdan Gaza, Ari Morcos, Matthew Leavitt,
- Abstract要約: プレトレーニングのための高品質な合成データを生成する合成データ生成フレームワークであるBeyondWebを紹介した。
BeyondWebは、従来のWebスケールデータセットの機能を大幅に拡張した。
オープンなWebデータよりも最大7.7倍、Nemotron-Synthより2.7倍高速なトレーニングを提供する。
- 参考スコア(独自算出の注目度): 12.935276089987662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language model (LLM) pretraining have shown that simply scaling data quantity eventually leads to diminishing returns, hitting a data wall. In response, the use of synthetic data for pretraining has emerged as a promising paradigm for pushing the frontier of performance. Despite this, the factors affecting synthetic data quality remain poorly understood. In this work, we introduce BeyondWeb, a synthetic data generation framework that produces high-quality synthetic data for pretraining. BeyondWeb significantly extends the capabilities of traditional web-scale datasets, outperforming state-of-the-art synthetic pretraining datasets such as Cosmopedia and Nemotron-CC's high-quality synthetic subset (Nemotron-Synth) by up to 5.1 percentage points (pp) and 2.6pp, respectively, when averaged across a suite of 14 benchmark evaluations. It delivers up to 7.7x faster training than open web data and 2.7x faster than Nemotron-Synth. Remarkably, a 3B model trained for 180B tokens on BeyondWeb outperforms an 8B model trained for the same token budget on Cosmopedia. We also present several insights from BeyondWeb on synthetic data for pretraining: what drives its benefits, which data to rephrase and how, and the impact of model size and family on data quality. Overall, our work shows that there's no silver bullet for generating high-quality synthetic pretraining data. The best outcomes require jointly optimizing many factors, a challenging task that requires rigorous science and practical expertise. Naive approaches can yield modest improvements, potentially at great cost, while well-executed methods can yield transformative improvements, as exemplified by BeyondWeb.
- Abstract(参考訳): 大規模言語モデル(LLM)事前訓練の最近の進歩は、単にデータ量をスケーリングするだけで最終的にリターンが減少し、データウォールにぶつかることを示している。
これに対し、事前学習のための合成データの利用は、パフォーマンスのフロンティアを推し進めるための有望なパラダイムとして現れている。
それにもかかわらず、合成データ品質に影響する要因はよく分かっていない。
本研究では,事前学習のための高品質な合成データを生成する合成データ生成フレームワークであるBeyondWebを紹介する。
BeyondWebは従来のWebスケールデータセットの能力を大幅に拡張し、14のベンチマーク評価スイートの平均で、CosmopediaやNemotron-CCの高品質な合成サブセット(Nemotron-Synth)を最大5.1ポイント(pp)と2.6ppに向上させた。
オープンなWebデータよりも最大7.7倍、Nemotron-Synthより2.7倍高速なトレーニングを提供する。
注目すべきなのは、BeyondWeb上で180Bトークンでトレーニングされた3Bモデルは、Cosmopediaで同じトークン予算でトレーニングされた8Bモデルを上回っていることだ。
また、BeyondWebから、事前トレーニングのための合成データに関する洞察をいくつか提示します。そのメリット、どのデータを言い換えてどのように表現するか、モデルのサイズとファミリーがデータ品質に与える影響などです。
全体として、我々の研究は高品質な合成事前学習データを生成する銀の弾丸がないことを示している。
最良の結果には、厳格な科学と実践的な専門知識を必要とする課題である、多くの要因を共同で最適化する必要がある。
ナイーブなアプローチは、おそらく大きなコストで、控えめな改善をもたらすが、よく実行されたメソッドは、BeyondWebが例示しているように、変革的な改善をもたらすことができる。
関連論文リスト
- Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - How to Synthesize Text Data without Model Collapse? [37.219627817995054]
合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。
半合成データを得るために,人為的データに対するトークン編集を提案する。
論文 参考訳(メタデータ) (2024-12-19T09:43:39Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Towards Effective and Efficient Continual Pre-training of Large Language Models [163.34610964970258]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。
本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。
バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-26T13:55:21Z) - Online Data Augmentation for Forecasting with Deep Learning [0.33554367023486936]
この研究は、ニューラルネットワークのトレーニング中に合成サンプルを生成するオンラインデータ拡張フレームワークを導入する。
トレーニングプロセスを通じて、実データと合成データのバランスの取れた表現を維持します。
オンラインデータ拡張はオフラインデータ拡張よりも予測性能が向上する、あるいは拡張アプローチがない、という実験結果が示唆されている。
論文 参考訳(メタデータ) (2024-04-25T17:16:13Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。