論文の概要: SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.03244v1
- Date: Tue, 02 Dec 2025 21:30:47 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:13:39.661247
- Title: SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning
- Title(参考訳): SPARK: 参照不要強化学習のためのステップワイズプロセス認識リワード
- Authors: Salman Rahman, Sruthi Gorantla, Arpit Gupta, Swastik Roy, Nanyun Peng, Yang Liu,
- Abstract要約: 密度の高いステップレベルのフィードバックを提供するプロセス報酬モデル(PRM)は、強化学習の可能性を示している。
筆者らはSPARK(SPARK)という3段階のフレームワークを提案し、第1段階ではジェネレータモデルが多様な解を生成し、検証器モデルがそれらを評価する。
ステップレベルで複数の独立した検証を集約することで、根底的な結果管理を超越したプロセス報酬モデルのトレーニングデータが得られることを示す。
- 参考スコア(独自算出の注目度): 39.1720897614261
- License:
- Abstract: Process reward models (PRMs) that provide dense, step-level feedback have shown promise for reinforcement learning, yet their adoption remains limited by the need for expensive step-level annotations or ground truth references. We propose SPARK: a three-stage framework where in the first stage a generator model produces diverse solutions and a verifier model evaluates them using parallel scaling (self-consistency) and sequential scaling (meta-critique). In the second stage, we use these verification outputs as synthetic training data to fine-tune generative process reward models, which subsequently serve as reward signals during training. We show that aggregating multiple independent verifications at the step level produces training data for process reward models that surpass ground-truth outcome supervision, achieving 67.5 F1 on ProcessBench (a benchmark for identifying erroneous steps in mathematical reasoning) compared to 66.4 for reference-guided training and 61.9 for GPT-4o. In the final stage, we apply our generative PRM with chain-of-thought verification (PRM-CoT) as the reward model in RL experiments on mathematical reasoning, and introduce format constraints to prevent reward hacking. Using Qwen2.5-Math-7B, we achieve 47.4% average accuracy across six mathematical reasoning benchmarks, outperforming ground-truth-based RLVR (43.9%). Our work enables reference-free RL training that exceeds ground-truth methods, opening new possibilities for domains lacking verifiable answers or accessible ground truth.
- Abstract(参考訳): 厳密なステップレベルのフィードバックを提供するプロセス報酬モデル(PRM)は強化学習の約束を示しているが、それらの採用は高価なステップレベルのアノテーションや根拠となる真実参照の必要性によって制限されている。
まず, 並列スケーリング(自己整合性)とシーケンシャルスケーリング(メタ批判)を用いて, 生成モデルが様々なソリューションを生成し, 検証モデルがそれらを評価する3段階フレームワークであるSPARKを提案する。
第2段階では、これらの検証出力を合成トレーニングデータとして、生成プロセス報酬モデルを微調整し、トレーニング中に報酬信号として機能させる。
ステップレベルで複数の独立検証を集約することにより,プロセスベンチで67.5 F1を達成し,参照誘導学習では66.4,GPT-4oでは61.9の精度で評価した。
最終段階では、数理推論に関するRL実験における報酬モデルとして、連鎖検証(PRM-CoT)を用いた生成的PRMを適用し、報酬ハッキングを防止するためのフォーマット制約を導入する。
Qwen2.5-Math-7Bを用いて、6つの数学的推論ベンチマークで47.4%の平均精度を達成し、地上ストラスベースのRLVR(43.9%)を上回った。
提案手法は,提案手法を超越した参照レスRLトレーニングを可能にし,検証可能な回答やアクセス可能な接地真理を欠いた領域に新たな可能性を開く。
関連論文リスト
- A Mathematical Framework for Custom Reward Functions in Job Application Evaluation using Reinforcement Learning [0.8709142317087694]
本稿では,小言語モデルに基づくより洗練された履歴書評価モデルを構築するための2段階のプロセスについて述べる。
このモデルはカスタム報酬関数上でGRPOを使用して微調整される。
その結果, GRPO分析モデルでは実世界の有効性が顕著に示され, 最終精度は91%であった。
論文 参考訳(メタデータ) (2025-11-20T06:06:30Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [75.72672339168092]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - ACECODER: Acing Coder RL via Automated Test-Case Synthesis [36.740393665032954]
既存のコードデータから広範な(問い合わせ、テストケース)ペアを生成するパイプラインを設計します。
我々は,Bradley-Terry損失を伴う報酬モデルをトレーニングするために,サンプルプログラムのパスレートに基づいて選好ペアを構築した。
RLトレーニングは,80段階の最適化ステップにおいて,HumanEval+を25%以上,MBPP+を6%以上改善できることを示す。
論文 参考訳(メタデータ) (2025-02-03T18:46:04Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。