論文の概要: Discriminative Policy Optimization for Token-Level Reward Models
- arxiv url: http://arxiv.org/abs/2505.23363v1
- Date: Thu, 29 May 2025 11:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.835245
- Title: Discriminative Policy Optimization for Token-Level Reward Models
- Title(参考訳): Token-Level Rewardモデルに対する差別的ポリシー最適化
- Authors: Hongzhan Chen, Tao Yang, Shiping Gao, Ruijun Chen, Xiaojun Quan, Hongtao Tian, Ting Yao,
- Abstract要約: プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
- 参考スコア(独自算出の注目度): 55.98642069903191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Process reward models (PRMs) provide more nuanced supervision compared to outcome reward models (ORMs) for optimizing policy models, positioning them as a promising approach to enhancing the capabilities of LLMs in complex reasoning tasks. Recent efforts have advanced PRMs from step-level to token-level granularity by integrating reward modeling into the training of generative models, with reward scores derived from token generation probabilities. However, the conflict between generative language modeling and reward modeling may introduce instability and lead to inaccurate credit assignments. To address this challenge, we revisit token-level reward assignment by decoupling reward modeling from language generation and derive a token-level reward model through the optimization of a discriminative policy, termed the Q-function Reward Model (Q-RM). We theoretically demonstrate that Q-RM explicitly learns token-level Q-functions from preference data without relying on fine-grained annotations. In our experiments, Q-RM consistently outperforms all baseline methods across various benchmarks. For example, when integrated into PPO/REINFORCE algorithms, Q-RM enhances the average Pass@1 score by 5.85/4.70 points on mathematical reasoning tasks compared to the ORM baseline, and by 4.56/5.73 points compared to the token-level PRM counterpart. Moreover, reinforcement learning with Q-RM significantly enhances training efficiency, achieving convergence 12 times faster than ORM on GSM8K and 11 times faster than step-level PRM on MATH. Code and data are available at https://github.com/homzer/Q-RM.
- Abstract(参考訳): プロセス報酬モデル(PRM)は、ポリシーモデルを最適化するための結果報酬モデル(ORM)と比較して、より微妙な監督を提供する。
近年のPRMは、トークン生成確率から得られる報酬スコアを用いて、報酬モデリングを生成モデルのトレーニングに組み込むことにより、段階レベルからトークンレベルの粒度に進化している。
しかし、生成言語モデリングと報酬モデリングの対立は不安定を招き、不正確な信用代入につながる可能性がある。
そこで我々は,Q-function Reward Model (Q-RM) と呼ばれる識別ポリシーの最適化を通じて,言語生成から報酬モデルを切り離し,トークンレベルの報酬モデルを導出することで,トークンレベルの報酬割り当てを再検討する。
理論的には、Q-RMは、微粒なアノテーションに頼ることなく、嗜好データからトークンレベルのQ-関数を明示的に学習する。
我々の実験では、Q-RMは様々なベンチマークで全てのベースライン法より一貫して優れています。
例えば、PPO/REINFORCEアルゴリズムに統合されると、Q-RMは平均のPass@1スコアをORMベースラインよりも5.85/4.70ポイント、トークンレベルのPRMよりも4.56/5.73ポイント向上する。
さらに、Q-RMによる強化学習はトレーニング効率を大幅に向上させ、GSM8KのORMの12倍、MATHのステップレベルPRMの11倍の収束を実現した。
コードとデータはhttps://github.com/homzer/Q-RMで公開されている。
関連論文リスト
- RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [33.547353090281284]
階層的リワードモデルと呼ばれる新しい報酬モデル手法を提案する。
個々の推論ステップと連続推論ステップを、きめ細かいレベルと粗いレベルの両方で評価する。
これは多段階推論コヒーレンスの評価に優れており、特に欠陥のあるステップが後に自己回帰によって修正される場合である。
論文 参考訳(メタデータ) (2025-03-16T15:18:40Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Let's Reinforce Step by Step [10.65244642965387]
人間のフィードバックからの強化学習をモデル推論の形式化に活用する。
以上の結果から, PRM法により得られる微粒な報酬は, 単純な数学的推論の精度を高めることが示唆された。
また、モデル性能において、報酬アグリゲーション関数が果たす重要な役割を示す。
論文 参考訳(メタデータ) (2023-11-10T01:35:51Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。