論文の概要: PRL: Process Reward Learning Improves LLMs' Reasoning Ability and Broadens the Reasoning Boundary
- arxiv url: http://arxiv.org/abs/2601.10201v1
- Date: Thu, 15 Jan 2026 09:01:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.070546
- Title: PRL: Process Reward Learning Improves LLMs' Reasoning Ability and Broadens the Reasoning Boundary
- Title(参考訳): PRL: プロセス・リワード学習はLLMの推論能力を改善し、推論境界を広げる
- Authors: Jiarui Yao, Ruida Wang, Tong Zhang,
- Abstract要約: Process Reward Learning (PRL) はエントロピー正規化強化学習目標を中間段階に分解する。
PRLは結果の報酬をプロセスの監視信号に変換し、最適化中の探索をより良く導くのに役立つ。
PRLの有効性を検証し、一般化することができる。
- 参考スコア(独自算出の注目度): 14.265023575624008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improving the reasoning abilities of Large Language Models (LLMs) has been a continuous topic recently. But most relevant works are based on outcome rewards at the trajectory level, missing fine-grained supervision during the reasoning process. Other existing training frameworks that try to combine process signals together to optimize LLMs also rely heavily on tedious additional steps like MCTS, training a separate reward model, etc., doing harm to the training efficiency. Moreover, the intuition behind the process signals design lacks rigorous theoretical support, leaving the understanding of the optimization mechanism opaque. In this paper, we propose Process Reward Learning (PRL), which decomposes the entropy regularized reinforcement learning objective into intermediate steps, with rigorous process rewards that could be assigned to models accordingly. Starting from theoretical motivation, we derive the formulation of PRL that is essentially equivalent to the objective of reward maximization plus a KL-divergence penalty term between the policy model and a reference model. However, PRL could turn the outcome reward into process supervision signals, which helps better guide the exploration during RL optimization. From our experiment results, we demonstrate that PRL not only improves the average performance for LLMs' reasoning ability measured by average @ n, but also broadens the reasoning boundary by improving the pass @ n metric. Extensive experiments show the effectiveness of PRL could be verified and generalized.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力の改善は、最近、継続的なトピックとなっている。
しかし、最も関連する研究は、軌道レベルでの結果の報酬に基づいており、推論プロセス中にきめ細かい監督を欠いている。
LLMを最適化するためにプロセス信号を組み合わせる他の既存のトレーニングフレームワークも、MCTSや個別の報酬モデルなどの面倒な追加ステップに大きく依存しており、トレーニング効率に悪影響を及ぼす。
さらに、プロセス信号の設計の背後にある直感は厳密な理論的支援を欠き、最適化機構の理解は不透明である。
本稿では,エントロピー正規化強化学習目標を中間段階に分解するプロセス・リワード・ラーニング(PRL)を提案する。
理論的モチベーションから、報酬の最大化の目的と本質的に等価なPRLの定式化と、政策モデルと基準モデルの間のKL偏差ペナルティ項を導出する。
しかし、PRLは結果の報酬をプロセスの監視信号に変えることができ、RL最適化時の探索をより良く導くのに役立つ。
実験結果から, PRLは平均@nで測定されたLLMの推論能力の平均性能を向上するだけでなく, パス@nの計測値を改善することにより推論境界を広げることを示した。
PRLの有効性を検証し、一般化することができる。
関連論文リスト
- Rectifying LLM Thought from Lens of Optimization [48.98086817378953]
ロングチェーン・オブ・シンクレット (Long chain-of- Thought, CoT) は、徹底的な調査と検討を可能にする。
進歩にもかかわらず、長いCoT LLMは、しばしば最適な推論行動を示す。
ポストトレーニング中のLCM推論を洗練するための新しい手法であるReProを紹介する。
論文 参考訳(メタデータ) (2025-12-01T17:41:08Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Reasoning with Exploration: An Entropy Perspective [111.0659496612249]
強化学習(RL)の中心的目標としてのバランシング探索と活用
エントロピーに基づく項による優位関数の増大という,1行のコードのみによる標準RLへの最小限の修正を導入する。
提案手法は,非常に大きなK値を用いて評価しても,Pass@K測定値において有意な利得が得られる。
論文 参考訳(メタデータ) (2025-06-17T17:54:03Z) - RL in Name Only? Analyzing the Structural Assumptions in RL post-training for LLMs [14.78605805191225]
近年,大規模言語モデル(LLM)の強化学習に基づくポストトレーニングが注目されている。
これらの手法の基礎となる定式化と仮定を批判的に検討する。
論文 参考訳(メタデータ) (2025-05-19T19:57:15Z) - Entropy-Regularized Process Reward Model [43.09203393852343]
大規模言語モデル(LLM)は、複雑な多段階推論を行う上で有望であるが、数学的推論に苦慮し続けている。
KL規則化マルコフ決定プロセス(MDP)を統合したエントロピー規則化プロセス報酬モデル(ER-PRM)を提案する。
MATHとGSM8Kベンチマークの実証実験により、ER-PRMは既存のプロセス報酬モデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-12-15T01:09:23Z) - Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。
サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文 参考訳(メタデータ) (2024-05-24T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。