Fugu-MT 論文翻訳(概要): Mid-Training with Self-Generated Data Improves Reinforcement Learning in Language Models

論文の概要: Mid-Training with Self-Generated Data Improves Reinforcement Learning in Language Models

arxiv url: http://arxiv.org/abs/2605.08472v1
Date: Fri, 08 May 2026 20:46:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:49.672142
Title: Mid-Training with Self-Generated Data Improves Reinforcement Learning in Language Models
Title（参考訳）: 自己生成データによる中間学習は言語モデルにおける強化学習を改善する
Authors: Aswin RRV, Jacob Dineen, Divij Handa, Mihir Parmar, Ben Zhou, Swaroop Mishra, Chitta Baral,
Abstract要約: RLトレーニングの中間段階として,中間訓練における多種多様な自己生成データについて検討した。具体的には、George Polya氏の問題解決アプローチによってガイドされた、ブートストラップ付きデータ生成フレームワークを採用する。実測データを用いたRL学習モデルでは,様々な数学的推論ベンチマークにおいて一貫した改善が達成されている。
参考スコア（独自算出の注目度）: 46.17527974490014
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The effectiveness of Reinforcement Learning (RL) in Large Language Models (LLMs) depends on the nature and diversity of the data used before and during RL. In particular, reasoning problems can often be approached in multiple ways that rely on different forms of reasoning, and exposure to only a limited range of such approaches in the training data may limit the effectiveness of RL. Motivated by this, we investigate using diverse self-generated data during mid-training as an intermediate step before RL training. Specifically, we adopt a bootstrapped data-generation framework guided by George Polya's problem-solving approaches for generating multiple variants of correct answers for each question in the training data, and then perform fine-tuning. We first provide a theoretical perspective on how mid-training on such data improves RL and explain how policy-gradient updates can incentivize combining multiple approaches. We then empirically demonstrate that RL-trained models initialized with our mid-training data achieve consistent improvements across various mathematical reasoning benchmarks and other OOD tasks like code generation and narrative reasoning. Overall, our investigative study shows that a language model learning multiple problem-solving approaches, through self-generated data helps subsequent RL.
Abstract（参考訳）: 大規模言語モデル(LLM)における強化学習(RL)の有効性は、RLの前後で使用されるデータの性質と多様性に依存する。特に、推論問題は、様々な推論形式に依存する複数の方法でアプローチされることが多く、訓練データにおけるそのようなアプローチの限られた範囲への露出は、RLの有効性を制限する可能性がある。そこで本研究では,RLトレーニングの中間段階として,トレーニング中における多種多様な自己生成データについて検討する。具体的には、ジョージ・ポリアの問題解決アプローチに導かれるブートストラップ付きデータ生成フレームワークを採用し、トレーニングデータの各質問に対して正しい回答の複数の変種を生成し、微調整を行う。まず、そのようなデータに対する中級トレーニングがRLをどのように改善するかの理論的な視点を提供し、複数のアプローチを組み合わせることで、ポリシーの段階的な更新がどのようにインセンティブを得られるかを説明します。次に、RLトレーニングされたモデルが中間学習データで初期化され、様々な数学的推論ベンチマークやコード生成や物語推論などのOODタスクにおいて一貫した改善が達成されたことを実証的に示す。総合調査の結果,自己生成データを通じて複数の問題解決アプローチを学習する言語モデルが,その後のRLに役立つことがわかった。

論文の概要: Mid-Training with Self-Generated Data Improves Reinforcement Learning in Language Models

関連論文リスト