論文の概要: How Can We Synthesize High-Quality Pretraining Data? A Systematic Study of Prompt Design, Generator Model, and Source Data
- arxiv url: http://arxiv.org/abs/2604.13977v1
- Date: Wed, 15 Apr 2026 15:24:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.60361
- Title: How Can We Synthesize High-Quality Pretraining Data? A Systematic Study of Prompt Design, Generator Model, and Source Data
- Title(参考訳): 高品質プレトレーニングデータをどのように合成できるか? プロンプト設計, ジェネレータモデル, ソースデータに関する体系的研究
- Authors: Joel Niklaus, Atsuki Yamaguchi, Michal Štefánik, Guilherme Penedo, Hynek Kydlíček, Elie Bakouch, Lewis Tunstall, Edward Emanuel Beeching, Thibaud Frere, Colin Raffel, Leandro von Werra, Thomas Wolf,
- Abstract要約: 我々は、Webテキストを合成事前学習データに書き換える際の重要な要素を同定する。
構造化された出力フォーマットは、キュレートされたWebベースラインと以前の合成方法の両方より一貫して優れています。
486ビリオンのオープンデータセットである textbftextscFinePhrase を開発した。
- 参考スコア(独自算出の注目度): 27.516126966056632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data is a standard component in training large language models, yet systematic comparisons across design dimensions, including rephrasing strategy, generator model, and source data, remain absent. We conduct extensive controlled experiments, generating over one trillion tokens, to identify critical factors in rephrasing web text into synthetic pretraining data. Our results reveal that structured output formats, such as tables, math problems, FAQs, and tutorials, consistently outperform both curated web baselines and prior synthetic methods. Notably, increasing the size of the generator model beyond 1B parameters provides no additional benefit. Our analysis also demonstrates that the selection of the original data used for mixing substantially influences performance. By applying our findings, we develop \textbf{\textsc{FinePhrase}}, a 486-billion-token open dataset of rephrased web text. We show that \textsc{FinePhrase} outperforms all existing synthetic data baselines while reducing generation costs by up to 30 times. We provide the dataset, all prompts, and the generation framework to the research community.
- Abstract(参考訳): 合成データは、大規模な言語モデルをトレーニングする際の標準コンポーネントであるが、リフレージング戦略、ジェネレータモデル、ソースデータなど、設計次元の体系的な比較はいまだに残っていない。
我々は、Webテキストを合成事前学習データに書き換える際の重要な要素を特定するために、1兆以上のトークンを生成する広範囲な制御実験を行った。
結果から,表や数学問題,FAQ,チュートリアルなどの構造化された出力形式は,キュレートされたWebベースラインや先行合成手法よりも一貫して優れていたことが明らかとなった。
特に、ジェネレータモデルのサイズを1Bパラメータを超えて増やすことは、追加の利益をもたらすものではない。
また,本分析の結果から,ミキシングに用いる元のデータの選択が性能に大きく影響していることが示唆された。
そこで本研究では,486ビリオンのオープンデータセットであるtextbf{\textsc{FinePhrase}}を開発した。
また, 生成コストを最大30倍に抑えながら, 既存の合成データベースラインよりも優れていることを示す。
研究コミュニティにデータセット、すべてのプロンプト、および生成フレームワークを提供します。
関連論文リスト
- Demystifying Synthetic Data in LLM Pre-training: A Systematic Study of Scaling Laws, Benefits, and Pitfalls [25.294408301653576]
大規模言語モデル(LLM)のスケーリングにおいて、トレーニングデータは重要な役割を果たすが、高品質なデータは供給が限られている。
自然のWebデータ、多様な合成タイプ(言い換えテキスト、生成された教科書)、および自然と合成データの混合を比較した。
合成テキストの事前学習は、天然のWebテキストの事前学習よりも高速ではない。
論文 参考訳(メタデータ) (2025-10-02T03:24:42Z) - Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。
合成データがモデル一般化をどのように改善するかを批判的に検討する。
本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-09-07T19:28:52Z) - Assessing Generative Models for Structured Data [0.0]
本稿では,データ内のカラム間依存関係を調べることで,実データに対して合成データを評価するための厳密な手法を提案する。
大規模言語モデル (GPT-2) は,数発のプロンプトによってクエリされた場合と微調整された場合の両方で,GAN (CTGAN) モデルは元の実データに類似した依存関係を持つデータを生成しないことがわかった。
論文 参考訳(メタデータ) (2025-03-26T18:19:05Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - GRIP: A Graph-Based Reasoning Instruction Producer [47.80560026838563]
textbfGraphベースのtextbfReasoning textbfInstruction textbfProducer について述べる。
論文 参考訳(メタデータ) (2024-12-12T01:52:25Z) - Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。