論文の概要: Mid-Training with Self-Generated Data Improves Reinforcement Learning in Language Models
- arxiv url: http://arxiv.org/abs/2605.08472v1
- Date: Fri, 08 May 2026 20:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.672142
- Title: Mid-Training with Self-Generated Data Improves Reinforcement Learning in Language Models
- Title(参考訳): 自己生成データによる中間学習は言語モデルにおける強化学習を改善する
- Authors: Aswin RRV, Jacob Dineen, Divij Handa, Mihir Parmar, Ben Zhou, Swaroop Mishra, Chitta Baral,
- Abstract要約: RLトレーニングの中間段階として,中間訓練における多種多様な自己生成データについて検討した。
具体的には、George Polya氏の問題解決アプローチによってガイドされた、ブートストラップ付きデータ生成フレームワークを採用する。
実測データを用いたRL学習モデルでは,様々な数学的推論ベンチマークにおいて一貫した改善が達成されている。
- 参考スコア(独自算出の注目度): 46.17527974490014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The effectiveness of Reinforcement Learning (RL) in Large Language Models (LLMs) depends on the nature and diversity of the data used before and during RL. In particular, reasoning problems can often be approached in multiple ways that rely on different forms of reasoning, and exposure to only a limited range of such approaches in the training data may limit the effectiveness of RL. Motivated by this, we investigate using diverse self-generated data during mid-training as an intermediate step before RL training. Specifically, we adopt a bootstrapped data-generation framework guided by George Polya's problem-solving approaches for generating multiple variants of correct answers for each question in the training data, and then perform fine-tuning. We first provide a theoretical perspective on how mid-training on such data improves RL and explain how policy-gradient updates can incentivize combining multiple approaches. We then empirically demonstrate that RL-trained models initialized with our mid-training data achieve consistent improvements across various mathematical reasoning benchmarks and other OOD tasks like code generation and narrative reasoning. Overall, our investigative study shows that a language model learning multiple problem-solving approaches, through self-generated data helps subsequent RL.
- Abstract(参考訳): 大規模言語モデル(LLM)における強化学習(RL)の有効性は、RLの前後で使用されるデータの性質と多様性に依存する。
特に、推論問題は、様々な推論形式に依存する複数の方法でアプローチされることが多く、訓練データにおけるそのようなアプローチの限られた範囲への露出は、RLの有効性を制限する可能性がある。
そこで本研究では,RLトレーニングの中間段階として,トレーニング中における多種多様な自己生成データについて検討する。
具体的には、ジョージ・ポリアの問題解決アプローチに導かれるブートストラップ付きデータ生成フレームワークを採用し、トレーニングデータの各質問に対して正しい回答の複数の変種を生成し、微調整を行う。
まず、そのようなデータに対する中級トレーニングがRLをどのように改善するかの理論的な視点を提供し、複数のアプローチを組み合わせることで、ポリシーの段階的な更新がどのようにインセンティブを得られるかを説明します。
次に、RLトレーニングされたモデルが中間学習データで初期化され、様々な数学的推論ベンチマークやコード生成や物語推論などのOODタスクにおいて一貫した改善が達成されたことを実証的に示す。
総合調査の結果,自己生成データを通じて複数の問題解決アプローチを学習する言語モデルが,その後のRLに役立つことがわかった。
関連論文リスト
- Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning [41.523848964102]
最近の視覚言語モデル(VLM)は強化学習(RL)を通して顕著な推論を実現する
RLは、経験の時代に連続的に進化する大規模視覚言語モデル(LVLM)を実現するための実現可能なソリューションを提供する。
合成データや自己回帰機構といった既存の戦略は、限られた分布とアライメントの困難に悩まされている。
問題解決ではなく,まず文脈から学習するようにモデルに誘導する,二重分離フレームワークDoGeを提案する。
論文 参考訳(メタデータ) (2025-12-07T13:17:31Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。