論文の概要: SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data
- arxiv url: http://arxiv.org/abs/2505.20347v1
- Date: Sun, 25 May 2025 13:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.193728
- Title: SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data
- Title(参考訳): SeRL: 限られたデータを持つ大規模言語モデルのためのセルフプレイ強化学習
- Authors: Wenkai Fang, Shunyu Liu, Yang Zhou, Kongcheng Zhang, Tongya Zheng, Kaixuan Chen, Mingli Song, Dacheng Tao,
- Abstract要約: 限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
- 参考スコア(独自算出の注目度): 65.56911325914582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances have demonstrated the effectiveness of Reinforcement Learning (RL) in improving the reasoning capabilities of Large Language Models (LLMs). However, existing works inevitably rely on high-quality instructions and verifiable rewards for effective training, both of which are often difficult to obtain in specialized domains. In this paper, we propose Self-play Reinforcement Learning(SeRL) to bootstrap LLM training with limited initial data. Specifically, SeRL comprises two complementary modules: self-instruction and self-rewarding. The former module generates additional instructions based on the available data at each training step, employing robust online filtering strategies to ensure instruction quality, diversity, and difficulty. The latter module introduces a simple yet effective majority-voting mechanism to estimate response rewards for additional instructions, eliminating the need for external annotations. Finally, SeRL performs conventional RL based on the generated data, facilitating iterative self-play learning. Extensive experiments on various reasoning benchmarks and across different LLM backbones demonstrate that the proposed SeRL yields results superior to its counterparts and achieves performance on par with those obtained by high-quality data with verifiable rewards. Our code is available at https://github.com/wantbook-book/SeRL.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の推論能力向上における強化学習(RL)の有効性が実証されている。
しかし、既存の作品は必然的に高品質な指導と効果的な訓練のための検証可能な報酬を頼りにしており、どちらも専門分野では入手が困難であることが多い。
本稿では,初期データに制限のあるLPMトレーニングをブートストラップするためのSeRL(Se-play Reinforcement Learning)を提案する。
具体的には、SeRLは2つの相補的なモジュール、セルフインストラクションとセルフリワードから構成される。
前者のモジュールは、トレーニングの各ステップで利用可能なデータに基づいて追加の命令を生成し、命令の品質、多様性、難易度を保証するために堅牢なオンラインフィルタリング戦略を採用する。
後者のモジュールはシンプルなが効果的な多数決投票機構を導入し、追加の命令に対する応答報酬を見積もり、外部アノテーションを不要にする。
最後に、SeRLは生成されたデータに基づいて従来のRLを実行し、反復的な自己再生学習を容易にする。
様々な推理ベンチマークおよび異なるLLMバックボーンでの広範囲な実験により、提案したSeRLは、その評価結果よりも優れ、検証可能な報酬付き高品質データと同等の性能が得られることを示した。
私たちのコードはhttps://github.com/wantbook-book/SeRL.comで利用可能です。
関連論文リスト
- AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning [55.82649731348012]
MMK12データセットとMM-EUREKAを7B,32Bパラメータで導入する。
前者は、人間の検証された答えと解法を含む多様な知識領域を特徴とする高品質なマルチモーダル数学推論データセットである。
後者は,オンラインフィルタリングを利用したルールベース強化学習と,トレーニング安定性を高めるための2段階トレーニング戦略を用いたマルチモーダルモデルである。
論文 参考訳(メタデータ) (2025-03-10T14:23:12Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - TeaMs-RL: Teaching LLMs to Generate Better Instruction Datasets via Reinforcement Learning [7.9961739811640244]
大きな言語モデル(LLM)は、人間のアノテーションに大きく依存することによる課題に直面することが多い。
この作業では、強化学習(RL:Reinforcement Learning)へと方向転換します。
我々はRLを用いて、微調整だけで十分である基礎的な命令データセットを直接生成する。
論文 参考訳(メタデータ) (2024-03-13T16:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。