論文の概要: Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective
- arxiv url: http://arxiv.org/abs/2506.02553v1
- Date: Tue, 03 Jun 2025 07:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.402927
- Title: Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective
- Title(参考訳): LLMにおけるオンライン強化学習に必要なリワード : 数学的視点
- Authors: Shenghua He, Tian Xia, Xuan Zhou, Hui Wei,
- Abstract要約: 大規模言語モデル(LLM)の強化学習におけるゼロ・リワード推定について検討する。
反応レベル報酬モデルのみを用いて、真で未知のトークンレベルの報酬に基づくポリシー勾配を不偏に推定できることを示す。
我々は,新しいアルゴリズム,Token-Reinforced Policy Optimization (TRePO)を提案する。
- 参考スコア(独自算出の注目度): 6.069069082518759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a common challenge in reinforcement learning for large language models (LLMs): the Zero-Reward Assumption, where non-terminal actions (i.e., intermediate token generations) receive zero task-specific immediate reward, while only the final token receives a reward for the entire response. This assumption arises frequently in practice, as precise token-level rewards are often difficult or infeasible to obtain in LLM applications. In this work, we provide a unifying theoretical perspective. We introduce the Trajectory Policy Gradient Theorem, which shows that the policy gradient based on true, unknown token-level rewards can be unbiasedly estimated using only a response-level reward model, regardless of whether the Zero-Reward Assumption holds or not, for algorithms in the REINFORCE and Actor-Critic families. This result reveals that widely used methods such as PPO, GRPO, ReMax, and RLOO inherently possess the capacity to model token-level reward signals, offering a theoretical justification for response-level reward approaches. Our findings pave the way for more practical, efficient LLM fine-tuning, allowing developers to treat training algorithms as black boxes and focus on improving the response-level reward model with auxiliary sub-models. We also offer a detailed analysis of popular RL and non-RL methods, comparing their theoretical foundations and practical advantages across common LLM tasks. Finally, we propose a new algorithm: Token-Reinforced Policy Optimization (TRePO), a theoretically grounded method that is simpler than PPO, matches GRPO in memory efficiency, and holds promise for broad applicability.
- Abstract(参考訳): 大規模言語モデル(LLM)の強化学習における共通課題として,ゼロ・リワード推定(Zero-Reward Assumption)について検討する。
正確なトークンレベルの報酬は、LLMアプリケーションで取得することがしばしば困難または不可能であるからである。
この研究において、我々は統一された理論的な視点を提供する。
本稿では,ReINFORCE や Actor-Critic のアルゴリズムでは,ゼロ・リワード推定が成立するか否かに関わらず,真の未知のトークンレベル報酬に基づく政策勾配を,応答レベル報酬モデルのみを用いて不偏に推定できることを示す。
この結果から, PPO, GRPO, ReMax, RLOOなどの広く用いられている手法は, 本質的にトークンレベルの報酬信号のモデル化能力を有しており, 応答レベルの報酬信号の理論的正当性を提供することが明らかとなった。
我々の研究は、より実用的で効率的なLCM微調整の道を開いたので、開発者はトレーニングアルゴリズムをブラックボックスとして扱い、補助的なサブモデルによる応答レベル報酬モデルの改善に集中することができる。
また、一般的なLLMタスクの理論的基礎と実用的利点を比較し、RL法と非RL法を詳細に分析する。
最後に,PPOよりも単純な理論的基礎を持つ手法であるToken-Reinforced Policy Optimization (TRePO)を提案する。
関連論文リスト
- A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - DPO Meets PPO: Reinforced Token Optimization for RLHF [35.638723885233475]
本稿では,トークンワイド報酬関数を選好データから学習し,この学習したトークンワイド報酬信号に基づいてポリシー最適化を行うアルゴリズムを提案する。
実験により、texttRTOはPPOや他の直接選好学習アルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-04-29T17:58:30Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。