論文の概要: Rewriting Pre-Training Data Boosts LLM Performance in Math and Code
- arxiv url: http://arxiv.org/abs/2505.02881v2
- Date: Sat, 10 May 2025 14:45:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 12:10:05.926745
- Title: Rewriting Pre-Training Data Boosts LLM Performance in Math and Code
- Title(参考訳): 事前トレーニングデータを書き直すことで、数学とコードのLLMパフォーマンスが向上
- Authors: Kazuki Fujii, Yukito Tajima, Sakae Mizuki, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Masanari Ohi, Masaki Kawamura, Taishi Nakamura, Takumi Okamoto, Shigeki Ishida, Kakeru Hattori, Youmi Ma, Hiroya Takamura, Rio Yokota, Naoaki Okazaki,
- Abstract要約: Llama 3.3 Community Licenseの下でリリースされた2つのデータセットを導入し、大きな言語モデル(LLM)のパフォーマンスを大幅に向上させる。
SwallowCodeはPythonスニペットを,構文検証,ピリントベースのスタイルフィルタリング,2段階の書き換えプロセスという,新しい4段階のパイプラインを通じて洗練する。
We show that continual pre-training of Llama-3.1-8B with SwallowCode boosts pass@1 by +17.0 on HumanEval and +17.7 on HumanEval+ than Stack-Edu。
- 参考スコア(独自算出の注目度): 21.587613905318705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of large language models (LLMs) in program synthesis and mathematical reasoning is fundamentally limited by the quality of their pre-training corpora. We introduce two openly licensed datasets, released under the Llama 3.3 Community License, that significantly enhance LLM performance by systematically rewriting public data. SwallowCode (approximately 16.1 billion tokens) refines Python snippets from The-Stack-v2 through a novel four-stage pipeline: syntax validation, pylint-based style filtering, and a two-stage LLM rewriting process that enforces style conformity and transforms snippets into self-contained, algorithmically efficient examples. Unlike prior methods that rely on exclusionary filtering or limited transformations, our transform-and-retain approach upgrades low-quality code, maximizing data utility. SwallowMath (approximately 2.3 billion tokens) enhances Finemath-4+ by removing boilerplate, restoring context, and reformatting solutions into concise, step-by-step explanations. Within a fixed 50 billion token training budget, continual pre-training of Llama-3.1-8B with SwallowCode boosts pass@1 by +17.0 on HumanEval and +17.7 on HumanEval+ compared to Stack-Edu, surpassing the baseline model's code generation capabilities. Similarly, substituting SwallowMath yields +12.4 accuracy on GSM8K and +7.6 on MATH. Ablation studies confirm that each pipeline stage contributes incrementally, with rewriting delivering the largest gains. All datasets, prompts, and checkpoints are publicly available, enabling reproducible research and advancing LLM pre-training for specialized domains.
- Abstract(参考訳): プログラム合成および数学的推論における大規模言語モデル(LLM)の性能は、学習前のコーパスの品質によって根本的に制限される。
Llama 3.3 Community Licenseの下でリリースされた2つのオープンライセンスデータセットを導入し、公開データを体系的に書き換えることでLLMのパフォーマンスを大幅に向上させる。
SwallowCode(約1610億のトークン)は、The-Stack-v2のPythonスニペットを、構文検証、ピリントベースのスタイルフィルタリング、およびスタイルの整合性を強制し、スニペットを自己完結的でアルゴリズム的に効率的な例に変換する2段階のLCM書き換えプロセスという、新しい4段階のパイプラインを通じて洗練する。
排他的フィルタリングや限定的な変換に依存する従来の方法とは異なり、当社のTransform-and-Retainアプローチは低品質のコードをアップグレードし、データユーティリティを最大化する。
SwallowMath(約230億のトークン)は、ボイラープレートを除去し、コンテキストを復元し、ソリューションを簡潔でステップバイステップで説明することで、Finmath-4+を強化する。
固定された500億のトークントレーニング予算の中で、Llama-3.1-8BとSwallowCodeの継続事前トレーニングは、HumanEvalでpass@1を+17.0、HumanEval+で+17.7を押し上げ、ベースラインモデルのコード生成能力を上回っている。
同様に、SwallowMathを置換すると、GSM8Kでは+12.4精度、MATHでは+7.6精度が得られる。
アブレーション調査では、パイプラインの各ステージがインクリメンタルに貢献し、リライトが最大の利益をもたらすことが確認されている。
すべてのデータセット、プロンプト、チェックポイントが公開されており、再現可能な研究を可能にし、特殊なドメインに対するLLM事前トレーニングを進めることができる。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - LLM Surgery: Efficient Knowledge Unlearning and Editing in Large Language Models [16.67999382790238]
大規模言語モデル(LLM)は、様々なドメインに革命をもたらしたが、そのユーティリティには、事前トレーニング中に埋め込まれた時代遅れまたは問題のある知識に関する課題が伴っている。
本稿では, ゼロから再学習することなく, 新たな知識を効率的に統合しながら, 問題や時代遅れの情報を解き放つため, LLMを変更するという課題に対処する。
Llama2-7B を用いて,LLM 手術は未学習のセットを忘れて,更新セットの精度が20%向上し,保持セットの性能が維持できることを実証した。
論文 参考訳(メタデータ) (2024-09-19T19:07:01Z) - LeDex: Training LLMs to Better Self-Debug and Explain Code [36.604898865514365]
LeDexは、LLMの自己老化能力を大幅に改善するトレーニングフレームワークである。
コード説明と改良のための高品質なデータセットを収集する自動パイプラインを提案する。
我々は、新しい報酬設計で、成功と失敗の軌跡の両方について、教師付き微調整(SFT)およびさらに強化学習(RL)を行う。
論文 参考訳(メタデータ) (2024-05-28T23:20:24Z) - JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.45794710162241]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。
そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。
我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文 参考訳(メタデータ) (2024-05-23T09:43:19Z) - Natural Is The Best: Model-Agnostic Code Simplification for Pre-trained Large Language Models [6.646510073473929]
本稿では,SlimCodeを提案する。SlimCodeは大規模言語モデルのための,モデルに依存しないコード単純化ソリューションである。
SlimCodeは、コード検索と要約におけるMRRおよびBLEUスコアの9.46%と5.15%の最先端技術を改善することができる。
論文 参考訳(メタデータ) (2024-05-18T06:15:52Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。