論文の概要: Synthetic Data RL: Task Definition Is All You Need
- arxiv url: http://arxiv.org/abs/2505.17063v1
- Date: Sun, 18 May 2025 05:35:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.514223
- Title: Synthetic Data RL: Task Definition Is All You Need
- Title(参考訳): Synthetic Data RL: タスク定義は必要なだけ
- Authors: Yiduo Guo, Zhen Guo, Chuanwei Huang, Zi-Ang Wang, Zekai Zhang, Haofei Yu, Huishuai Zhang, Yikang Shen,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、基礎モデルを専門的なタスクに適応させる強力な方法であるが、大規模な人間ラベルデータに依存しているため、広く採用が制限される。
本稿では,タスク定義から生成された合成データのみを用いて微細構造モデルを補強する,シンプルで汎用的なフレームワークであるSynthetic Data RLを紹介する。
提案手法はまず,タスク定義と検索された文書から質問と回答のペアを生成し,モデルの可解性に基づいて質問の難易度に適応し,RL学習用サンプルの平均通過率を用いて質問を選択する。
- 参考スコア(独自算出の注目度): 27.637296092731322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is a powerful way to adapt foundation models to specialized tasks, but its reliance on large-scale human-labeled data limits broad adoption. We introduce Synthetic Data RL, a simple and general framework that reinforcement fine-tunes models using only synthetic data generated from a task definition. Our method first generates question and answer pairs from the task definition and retrieved documents, then adapts the difficulty of the question based on model solvability, and selects questions using the average pass rate of the model across samples for RL training. On Qwen-2.5-7B, our method achieves a 29.2% absolute improvement over the base model on GSM8K (+2.9 pp vs. instruction-tuned, +6.6 pp vs. Self-Instruct), 8.7% on MATH, 13.1% on GPQA (+7.0 pp vs. SynthLLM), 8.9% on MedQA, 17.7% on CQA (law) and 13.7% on CFA (finance). It surpasses supervised fine-tuning under the same data budget and nearly matches RL with full human data across datasets (e.g., +17.2 pp on GSM8K). Adding 100 human demonstrations improves the performance of GSM8K only by 0.4 pp, showing a limited added value. By reducing human data annotation, Synthetic Data RL enables scalable and efficient RL-based model adaptation. Code and demos are available at https://github.com/gydpku/Data_Synthesis_RL/.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、基礎モデルを専門的なタスクに適応させる強力な方法であるが、大規模な人間ラベルデータに依存しているため、広く採用が制限される。
本稿では,タスク定義から生成された合成データのみを用いて微細構造モデルを補強する,シンプルで汎用的なフレームワークであるSynthetic Data RLを紹介する。
提案手法は,まずタスク定義と検索された文書から質問と回答のペアを生成し,モデルの可解性に基づいて質問の難易度に適応し,RL学習用サンプルの平均通過率を用いて質問を選択する。
Qwen-2.5-7Bでは,GSM8Kのベースモデル(+2.9pp,+6.6pp,セルフインストラクト),MATHの8.7%,GPQAの13.1%(+7.0pp,SynthLLM),MedQAの8.9%,CQAの17.7%,CFAの13.7%に対して29.2%の絶対改善を実現している。
同じデータ予算の下で監督された微調整を超え、RLとデータセット全体にわたる完全な人間データ(GSM8Kでは+17.2pp)とほぼ一致している。
人間のデモを100個追加すると、GSM8Kのパフォーマンスは0.4ppで改善され、付加価値は制限された。
人間のデータアノテーションを減らすことで、Synthetic Data RLはスケーラブルで効率的なRLベースのモデル適応を可能にする。
コードとデモはhttps://github.com/gydpku/Data_Synthesis_RL/で公開されている。
関連論文リスト
- AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use [38.51141014728375]
強化学習は大規模言語モデルの性能を向上させることが示されている。
マルチステップ最適化シナリオを対象とした合成データ生成とRL手法を提案する。
ステップワイズ強化学習(SWiRL)は、反復的に多段階推論とツール使用データを生成し、そのデータから学習する。
論文 参考訳(メタデータ) (2025-04-07T05:20:58Z) - LIMR: Less is More for RL Scaling [25.477841726836836]
学習影響測定(Learning Impact Measurement, LIM)は, 学習サンプルを評価・優先順位付けする自動手法である。
提案手法は,1,389個のサンプルと8,523個のサンプルの完全なデータセットとを比較して,同等あるいは優れた性能を実現する。
再現可能な研究と今後のイノベーションのために、LIMRをオープンソース化しています。LIMRの実装、トレーニングと評価コード、キュレートされたデータセット、トレーニングされたモデルなどです。
論文 参考訳(メタデータ) (2025-02-17T15:13:29Z) - Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文 参考訳(メタデータ) (2024-10-01T10:25:03Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Training Question Answering Models From Synthetic Data [26.91650323300262]
本研究は, 人工問合せと人為的問合せのギャップを狭めることを目的としている。
我々は830億のパラメータ GPT-2 モデルにより生成された合成コーパスから質問や回答を合成する。
人間の監督にアクセスできず、他のモデルのみにアクセスできないため、完全にモデル生成データに基づいて、アート質問応答ネットワークの状態をトレーニングすることが可能です。
論文 参考訳(メタデータ) (2020-02-22T01:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。