論文の概要: Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models
- arxiv url: http://arxiv.org/abs/2602.12036v1
- Date: Thu, 12 Feb 2026 15:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.879658
- Title: Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models
- Title(参考訳): composition-RL: 大規模言語モデルの強化学習のための検証可能なプロンプトを構成する
- Authors: Xin Xu, Clive Bai, Kai Yang, Tianhao Chen, Yangkun Chen, Weijie Liu, Hao Chen, Yang Wang, Saiyong Yang, Can Yang,
- Abstract要約: Reinforcement Learning with Verible Rewards (RLVR)の成功を支える大規模検証プロンプト
近年の研究では、ロールアウトパス率が0のハードプロンプトを優先順位付けすることで、限られたトレーニングデータをうまく活用することに焦点を当てている。
パスレート1プロンプトをターゲットとした限定検証プロンプトの有効利用を目的とした,シンプルかつ有用なコンポジション-RLを提案する。
- 参考スコア(独自算出の注目度): 16.683596751503845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale verifiable prompts underpin the success of Reinforcement Learning with Verifiable Rewards (RLVR), but they contain many uninformative examples and are costly to expand further. Recent studies focus on better exploiting limited training data by prioritizing hard prompts whose rollout pass rate is 0. However, easy prompts with a pass rate of 1 also become increasingly prevalent as training progresses, thereby reducing the effective data size. To mitigate this, we propose Composition-RL, a simple yet useful approach for better utilizing limited verifiable prompts targeting pass-rate-1 prompts. More specifically, Composition-RL automatically composes multiple problems into a new verifiable question and uses these compositional prompts for RL training. Extensive experiments across model sizes from 4B to 30B show that Composition-RL consistently improves reasoning capability over RL trained on the original dataset. Performance can be further boosted with a curriculum variant of Composition-RL that gradually increases compositional depth over training. Additionally, Composition-RL enables more effective cross-domain RL by composing prompts drawn from different domains. Codes, datasets, and models are available at https://github.com/XinXU-USTC/Composition-RL.
- Abstract(参考訳): 大規模検証可能なプロンプトは、RLVR(Reinforcement Learning with Verifiable Rewards)の成功を支えるものだが、非形式的な例が多く含まれており、さらなる拡張には費用がかかる。
近年の研究では、ロールアウトパス率が0のハードプロンプトを優先順位付けすることで、限られたトレーニングデータをうまく活用することに焦点を当てている。
しかし、トレーニングが進むにつれて、パスレート1の容易なプロンプトも増加し、有効データサイズが減少する。
そこで本研究では,パスレート1プロンプトをターゲットとした限定検証プロンプトの有効利用を目的とした,シンプルかつ有用なコンポジション-RLを提案する。
より具体的には、コンポジション-RLは複数の問題を新しい検証可能な質問に自動的に合成し、これらのコンポジションプロンプトをRLトレーニングに使用する。
4Bから30Bまでのモデルサイズにわたる大規模な実験は、コンポジション-RLが元のデータセットでトレーニングされたRLよりも一貫して推論能力を改善することを示している。
コンポジション-RLのカリキュラムの変種によって、徐々にトレーニングの深みを増すことで、パフォーマンスをさらに向上させることができる。
さらに、コンポジション-RLは異なるドメインから引き出されたプロンプトを構成することで、より効果的なクロスドメインRLを可能にする。
コード、データセット、モデルはhttps://github.com/XinXU-USTC/Composition-RLで公開されている。
関連論文リスト
- Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [13.948640763797776]
本稿では,RLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。
スケーラブルで効率的で分散的なRLシステムであるReaLly scalableRLを開発した。
SRLは15k以上のCPUコアでRL実験を大規模に実施した初めての学術コミュニティである。
論文 参考訳(メタデータ) (2023-06-29T05:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。