論文の概要: Towards Better RL Training Data Utilization via Second-Order Rollout
- arxiv url: http://arxiv.org/abs/2602.22765v1
- Date: Thu, 26 Feb 2026 08:55:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.607549
- Title: Towards Better RL Training Data Utilization via Second-Order Rollout
- Title(参考訳): 2次ロールアウトによるRLトレーニングデータ活用に向けて
- Authors: Zhe Yang, Yudong Wang, Rang Li, Zhifang Sui,
- Abstract要約: 我々は,共同で生成と批判の能力を訓練するための統一的な枠組みを提案する。
我々の研究は、RLにおける動的データ拡張と共同生成批判訓練の予備的な調査を提供する。
- 参考スコア(独自算出の注目度): 25.355430958614434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has empowered Large Language Models (LLMs) with strong reasoning capabilities, but vanilla RL mainly focuses on generation capability improvement by training with only first-order rollout (generating multiple responses for a question), and we argue that this approach fails to fully exploit the potential of training data because of the neglect of critique capability training. To tackle this problem, we further introduce the concept of second-order rollout (generating multiple critiques for a response) and propose a unified framework for jointly training generation and critique capabilities. Extensive experiments across various models and datasets demonstrate that our approach can utilize training data more effectively than vanilla RL and achieve better performance under the same training data. Additionally, we uncover several insightful findings regarding second-order rollout and critique training, such as the importance of label balance in critique training and the noise problem of outcome-based rewards, which can be mitigated through sampling techniques. Our work offers a preliminary exploration of dynamic data augmentation and joint generation-critique training in RL, providing meaningful inspiration for the further advancement of RL training
- Abstract(参考訳): 強化学習(RL)では,強い推論能力を持つ大規模言語モデル(LLM)が強化されているが,バニラRLは主に1次ロールアウトのみでのトレーニング(質問に対する複数の応答の生成)による生成能力の向上に重点を置いている。
この問題に対処するため,第2次ロールアウト(応答に対する複数の批判を生成する)の概念をさらに導入し,共同で生成と批判の能力を訓練するための統一的な枠組みを提案する。
様々なモデルやデータセットにわたる大規模な実験により、我々のアプローチはバニラRLよりも効果的にトレーニングデータを利用でき、同じトレーニングデータの下でより良いパフォーマンスを達成できることを示した。
さらに,批判訓練におけるラベルバランスの重要性や,サンプリング手法によって緩和できる結果に基づく報奨のノイズ問題など,2次ロールアウトと批判訓練に関する洞察に富んだ知見がいくつか見出された。
我々の研究は、RLにおける動的データ強化と共同生成批判トレーニングの予備的な探索を提供し、RLトレーニングのさらなる進歩に有意義なインスピレーションを与える。
関連論文リスト
- On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models [73.10315509190623]
最近の強化学習技術は、言語モデルにおいて顕著な推論改善をもたらした。
ポストトレーニングが、事前トレーニング中に取得したものを超えて、モデルの推論能力を真に拡張するかどうかは不明だ。
プレトレーニング,ミッドトレーニング,およびRLベースのポストトレーニングの因果的貢献を分離する,完全に制御された実験フレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-08T18:12:10Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions [17.407689582427437]
大規模言語モデル(LLM)推論は、強化学習(RL)を通して計画や自己回帰のような洗練された行動が現れることを示した。
textbfReLIFT (textbfReinforcement textbfL textbfInterleaved with Online textbfFine-textbfTuning)
ReLIFTでは、モデルを主にRLを使ってトレーニングするが、難しい問題に遭遇すると、ファインチューニングのための高品質なソリューションが収集され、トレーニングプロセスが交互に行われる。
論文 参考訳(メタデータ) (2025-06-09T08:11:20Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Behavior Injection: Preparing Language Models for Reinforcement Learning [45.744838898763554]
我々はRL目標のステップごとの影響を分析し、効果的な後学習のための2つの重要な条件を同定する。
RLに先立って適用されたタスクに依存しないデータ拡張方式である振舞い注入を提案する。
提案手法は,複数のベースモデルを用いた2つの推論ベンチマークで評価する。
論文 参考訳(メタデータ) (2025-05-25T00:54:50Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。