論文の概要: Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers
- arxiv url: http://arxiv.org/abs/2505.04842v1
- Date: Wed, 07 May 2025 22:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.693842
- Title: Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers
- Title(参考訳): 価値をRLに戻す - LLM推論器を検証器で統一することでテスト時間スケーリングを改善する
- Authors: Kusha Sareen, Morgane M Moss, Alessandro Sordoni, Rishabh Agarwal, Arian Hosseini,
- Abstract要約: RL$V$は、LLMを推論器と生成検証器の両方として共同で訓練することにより、任意の値自由なRL法を増強する。
RL$V$は、並列サンプリングでMATHの精度を20%以上向上し、効率的なテスト時間計算のスケーリングを可能にする。
- 参考スコア(独自算出の注目度): 57.95157497749428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prevalent reinforcement learning~(RL) methods for fine-tuning LLM reasoners, such as GRPO or Leave-one-out PPO, abandon the learned value function in favor of empirically estimated returns. This hinders test-time compute scaling that relies on using the value-function for verification. In this work, we propose RL$^V$ that augments any ``value-free'' RL method by jointly training the LLM as both a reasoner and a generative verifier using RL-generated data, adding verification capabilities without significant overhead. Empirically, RL$^V$ boosts MATH accuracy by over 20\% with parallel sampling and enables $8-32\times$ efficient test-time compute scaling compared to the base RL method. RL$^V$ also exhibits strong generalization capabilities for both easy-to-hard and out-of-domain tasks. Furthermore, RL$^V$ achieves $1.2-1.6\times$ higher performance when jointly scaling parallel and sequential test-time compute with a long reasoning R1 model.
- Abstract(参考訳): GRPOやLeave-one-out PPOのような微調整LDM推論器の強化学習〜(RL)手法は、経験的に推定されたリターンを優先して学習値関数を放棄する。
これにより、検証に値関数を使うことに依存するテスト時の計算スケーリングが妨げられます。
本研究では, LLM を推論器として, 生成検証器として, また, RL 生成データを用いた生成検証を共同で行うことで, ``value-free'' の RL メソッドを拡張できる RL$^V$ を提案する。
実験的に、RL$^V$は並列サンプリングでMATHの精度を20\%以上向上し、ベースRL法と比較して8-32\times$の効率的なテスト時間計算スケーリングを可能にした。
RL$^V$はまた、易しみやすいタスクと外ドメインタスクの両方に対して強力な一般化能力を示す。
さらに、RL$^V$は、長い推論R1モデルで並列およびシーケンシャルなテスト時間計算を共同でスケーリングするときに、1.2-1.6\times$高パフォーマンスを達成する。
関連論文リスト
- Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning [60.67176246634741]
メタ強化学習(RL)問題としてテスト時間計算を最適化する問題を定式化する。
現状のモデルでは後悔を最小限に抑えることはできないが,結果0/1報酬RLと合わせて報酬ボーナスを最大化することで,それを実現できることを示す。
論文 参考訳(メタデータ) (2025-03-10T17:40:43Z) - $Q\sharp$: Provably Optimal Distributional RL for LLM Post-Training [60.01594991938747]
$Qsharp$ は KL 正規化 RL の値に基づくアルゴリズムで、最適な正規化 $Q$ 関数を使用して参照ポリシーを導出する。
この結果から,LLMのポストトレーニングに有効なアプローチとして$Qsharp$が注目され,性能と理論的保証が向上した。
論文 参考訳(メタデータ) (2025-02-27T21:43:00Z) - Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。
我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文 参考訳(メタデータ) (2025-02-17T18:43:24Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを介してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$に比べて長期で累積報酬が大きくなる一方で、メタトレーニング時間を大幅に削減し、アウト・オブ・ディストリビューションタスクをより一般化することを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。