論文の概要: A Deep Dive into Scaling RL for Code Generation with Synthetic Data and Curricula
- arxiv url: http://arxiv.org/abs/2603.24202v1
- Date: Wed, 25 Mar 2026 11:23:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.259327
- Title: A Deep Dive into Scaling RL for Code Generation with Synthetic Data and Curricula
- Title(参考訳): 合成データとカリキュラムを用いたコード生成のためのRLのスケーリング
- Authors: Cansu Sancaktar, David Zhang, Gabriel Synnaeve, Taco Cohen,
- Abstract要約: 本稿では,教師モデルを用いたスケーラブルなマルチターン合成データ生成パイプラインを提案する。
シングルターン生成と比較して、このマルチターンアプローチは有効な合成問題の収量を大幅に改善する。
我々は,Llama3.1-8BインストラクションとQwen3-8Bベースモデルファミリ間のRLトレーニングにおいて,タスクの難易度,カリキュラムのスケジューリング,環境多様性がどう相互作用するかを体系的に研究する。
- 参考スコア(独自算出の注目度): 39.433615386487126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has emerged as a powerful paradigm for improving large language models beyond supervised fine-tuning, yet sustaining performance gains at scale remains an open challenge, as data diversity and structure, rather than volume alone, become the limiting factor. We address this by introducing a scalable multi-turn synthetic data generation pipeline in which a teacher model iteratively refines problems based on in-context student performance summaries, producing structured difficulty progressions without any teacher fine-tuning. Compared to single-turn generation, this multi-turn approach substantially improves the yield of valid synthetic problems and naturally produces stepping stones, i.e. easier and harder variants of the same core task, that support curriculum-based training. We systematically study how task difficulty, curriculum scheduling, and environment diversity interact during RL training across the Llama3.1-8B Instruct and Qwen3-8B Base model families, with additional scaling experiments on Qwen2.5-32B. Our results show that synthetic augmentation consistently improves in-domain code and in most cases out-of-domain math performance, and we provide empirical insights into how curriculum design and data diversity jointly shape RL training dynamics.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、教師付き微調整を超えて大規模言語モデルを改善するための強力なパラダイムとして登場したが、ボリュームのみではなく、データ多様性と構造が制限要因となるため、大規模でパフォーマンス向上を維持することは、依然としてオープンな課題である。
そこで本研究では,教師モデルを用いたスケーラブルなマルチターン合成データ生成パイプラインを導入し,教師の微調整を伴わない構造的難易度向上を実現する。
単ターン生成と比較して、このマルチターンアプローチは有効な合成問題の収量を大幅に改善し、自然にステップストーン、すなわちカリキュラムベースのトレーニングをサポートする同じコアタスクのより簡単で難しい変種を生産する。
我々は,Llama3.1-8BインストラクションとQwen3-8Bベースモデルファミリ間のRLトレーニングにおいて,タスクの難易度,カリキュラムのスケジューリング,環境の多様性がどう相互作用するかを系統的に研究し,Qwen2.5-32Bのスケーリング実験を行った。
以上の結果から,総合的な拡張はドメイン内コードを改善するとともに,ほとんどの場合,ドメイン外数学のパフォーマンスを向上させることが示され,カリキュラム設計とデータの多様性が共同でRLトレーニングダイナミクスを形作る方法に関する実証的な知見が得られた。
関連論文リスト
- SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning [24.80806018678682]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルの推論能力を高めるための原則的な方法である。
実際には、RLの進捗は、タスクの難しさがモデル能力と整合しなくなると遅くなります。
本稿では,適応環境設計による効果的な学習信号を維持する枠組みを提案する。
論文 参考訳(メタデータ) (2026-01-08T10:42:04Z) - Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models [71.9060068259379]
汎用推論モデルを構築するために,ケースド・ドメインワイド強化学習を提案する。
私たちの14Bモデルは、RLの後、LiveCodeBench v5/v6 ProでSFTの教師であるDeepSeek-R1-0528を上回り、インフォマティクスにおける2025 International Olympiad in Informatics (IOI)における銀の医療性能を上回りました。
論文 参考訳(メタデータ) (2025-12-15T18:02:35Z) - Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning [41.523848964102]
最近の視覚言語モデル(VLM)は強化学習(RL)を通して顕著な推論を実現する
RLは、経験の時代に連続的に進化する大規模視覚言語モデル(LVLM)を実現するための実現可能なソリューションを提供する。
合成データや自己回帰機構といった既存の戦略は、限られた分布とアライメントの困難に悩まされている。
問題解決ではなく,まず文脈から学習するようにモデルに誘導する,二重分離フレームワークDoGeを提案する。
論文 参考訳(メタデータ) (2025-12-07T13:17:31Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Probing In-Context Learning: Impact of Task Complexity and Model Architecture on Generalization and Efficiency [10.942999793311765]
タスクの複雑さとモデルアーキテクチャを体系的に変化させる、巧妙な実験フレームワークを用いて、文脈内学習(ICL)について検討する。
GPT2スタイルのトランスフォーマー、FlashAttention機構を備えたトランスフォーマー、畳み込みハイエナモデル、Mamba状態空間モデルという4つの異なるモデルを評価した。
論文 参考訳(メタデータ) (2025-05-10T00:22:40Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。