論文の概要: Off-Policy Value-Based Reinforcement Learning for Large Language Models
- arxiv url: http://arxiv.org/abs/2603.23355v1
- Date: Tue, 24 Mar 2026 15:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.569819
- Title: Off-Policy Value-Based Reinforcement Learning for Large Language Models
- Title(参考訳): 大規模言語モデルのためのオフポリティ値に基づく強化学習
- Authors: Peng-Yuan Wang, Ziniu Li, Tian Xu, Bohan Yang, Tian-Shuo Liu, ChenYang Wang, Xiong-Hui Chen, Yi-Chen Li, Tianyun Yang, Congliang Chen, Yang Yu,
- Abstract要約: ReValはベルマン更新に基づく手法で、内部の一貫性を捉える段階的な信号と、結果検証から導出される軌道レベルの信号を組み合わせる。
DeepSeek-R1-Distill-1.5Bでは、ReValはトレーニング効率を改善し、AIME24の2.7%、GRPOのGPQAの4.5%の改善を実現している。
- 参考スコア(独自算出の注目度): 25.962820072445222
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Improving data utilization efficiency is critical for scaling reinforcement learning (RL) for long-horizon tasks where generating trajectories is expensive. However, the dominant RL methods for LLMs are largely on-policy: they update each batch of data only once, discard it, and then collect fresh samples, resulting in poor sample efficiency. In this work, we explore an alternative value-based RL framework for LLMs that naturally enables off-policy learning. We propose ReVal, a Bellman-update-based method that combines stepwise signals capturing internal consistency with trajectory-level signals derived from outcome verification. ReVal naturally supports replay-buffer-based training, allowing efficient reuse of past trajectories. Experiments on standard mathematical reasoning benchmarks show that ReVal not only converges faster but also outperforms GRPO in final performance. On DeepSeek-R1-Distill-1.5B, ReVal improves training efficiency and achieves improvement of 2.7% in AIME24 and 4.5% in out-of-domain benchmark GPQA over GRPO. These results suggest that value-based RL is a practical alternative to policy-based methods for LLM training.
- Abstract(参考訳): データ利用効率の向上は、トラジェクトリの生成が高価である長期タスクにおいて、強化学習(RL)のスケーリングに不可欠である。
しかし、LLMの優越的なRL法は、主に政治上のものであり、各バッチを一度だけ更新し、それを破棄し、新鮮なサンプルを収集し、結果としてサンプル効率が低下する。
本研究では,LLM のための代替価値ベース RL フレームワークについて検討する。
本稿では,段階的に内部整合性を示す信号と,結果検証から導出される軌道レベルの信号とを結合したベルマン更新方式ReValを提案する。
ReValは自然にリプレイバッファベースのトレーニングをサポートし、過去の軌道の効率的な再利用を可能にする。
標準的な数学的推論ベンチマークの実験では、ReValはより高速に収束するだけでなく、最終性能でもGRPOより優れていた。
DeepSeek-R1-Distill-1.5Bでは、ReValはトレーニング効率を改善し、AIME24の2.7%、GRPOのGPQAの4.5%の改善を実現している。
これらの結果から,価値に基づくRLは政策に基づくLLMトレーニングの実践的な代替手段であることが示唆された。
関連論文リスト
- REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates [53.3717573880076]
JitRL(Just-In-Time Reinforcement Learning、ジャスト・イン・タイム強化学習)は、テスト時間ポリシーの最適化を可能にするトレーニング不要のフレームワークである。
JitRLは、経験の動的で非パラメトリックな記憶を維持し、関連する軌跡を取得して、オンザフライでのアクションの利点を推定する。
WebArenaとJerrichoの実験では、JitRLがトレーニング不要メソッドの間に新しい最先端技術を確立していることが示されている。
論文 参考訳(メタデータ) (2026-01-26T14:16:51Z) - DiFFPO: Training Diffusion LLMs to Reason Fast and Furious via Reinforcement Learning [37.20873499361773]
マスク付き拡散大言語モデル (dLLM) を学習し, より優れた推論を行うための統一フレームワークを提案する。
我々はまず,既存の基本方針を,真のdLLM政策の近似としてはるかに難易度の高い,政治外RLによるサロゲート政策の訓練により統一する。
RLでは、各プロンプトに対して推論閾値を適応的に割り当てることによって、dLLMの自然なマルチトークン予測能力をインセンティブ化する。
論文 参考訳(メタデータ) (2025-10-02T16:57:24Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - Succeed or Learn Slowly: Sample Efficient Off-Policy Reinforcement Learning for Mobile App Control [50.316067647636196]
本稿では,モバイルアプリ制御タスクで評価された新規な非政治強化学習アルゴリズムであるSucceed or Learn Slowly (SoLS)を紹介する。
SoLSは、ユーザーインターフェースナビゲーションのための微調整基礎モデルにおいて、非政治的アクター-批判的アプローチを修正することで、サンプル効率を改善する。
我々は、成功した対話から学習を優先するSTR(Success Transition Replay)でSOLSを増強する。
論文 参考訳(メタデータ) (2025-09-01T18:55:27Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。