論文の概要: Beyond Outcome Verification: Verifiable Process Reward Models for Structured Reasoning
- arxiv url: http://arxiv.org/abs/2601.17223v1
- Date: Fri, 23 Jan 2026 23:22:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.428128
- Title: Beyond Outcome Verification: Verifiable Process Reward Models for Structured Reasoning
- Title(参考訳): アウトカム検証を超えて:構造化推論のための検証可能なプロセスリワードモデル
- Authors: Massimiliano Pronesti, Anya Belz, Yufang Hou,
- Abstract要約: 検証可能なプロセスリワードモデル(VPRM)は、中間推論ステップを決定論的、ルールベースの検証によってチェックする強化学習フレームワークである。
医療エビデンス合成のためのリスク・オブ・バイアス評価にVPRMを適用した。
その結果、VPRMは最先端モデルよりも20%高いF1、検証可能な結果報酬より6.5%高いF1を達成することがわかった。
- 参考スコア(独自算出の注目度): 14.632557283678898
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent work on reinforcement learning with verifiable rewards (RLVR) has shown that large language models (LLMs) can be substantially improved using outcome-level verification signals, such as unit tests for code or exact-match checks for mathematics. In parallel, process supervision has long been explored as a way to shape the intermediate reasoning behaviour of LLMs, but existing approaches rely on neural judges to score chain-of-thought steps, leaving them vulnerable to opacity, bias, and reward hacking. To address this gap, we introduce Verifiable Process Reward Models (VPRMs), a reinforcement-learning framework in which intermediate reasoning steps are checked by deterministic, rule-based verifiers. We apply VPRMs to risk-of-bias assessment for medical evidence synthesis, a domain where guideline-defined criteria and rule-based decision paths enable programmatic verification of reasoning traces. Across multiple datasets, we find that VPRMs generate reasoning that adheres closely to domain rules and achieve substantially higher coherence between step-level decisions and final labels. Results show that VPRMs achieve up to 20% higher F1 than state-of-the-art models and 6.5% higher than verifiable outcome rewards, with substantial gains in evidence grounding and logical coherence.
- Abstract(参考訳): 検証可能な報酬を用いた強化学習(RLVR)に関する最近の研究は、符号の単体テストや数学の精度チェックといった結果レベルの検証信号を用いて、大きな言語モデル(LLM)を大幅に改善できることを示した。
並行して、プロセスの監視は、LLMの中間的推論動作を形成する手段として長い間検討されてきたが、既存のアプローチでは、ニューラルネットワークの判断に頼って、チェーンオブ思考のステップをスコアし、不透明さ、バイアス、報酬のハッキングに弱いままにしている。
このギャップに対処するために、我々は、中間推論ステップを決定論的、ルールベースの検証によってチェックする強化学習フレームワークである、検証可能なプロセスリワードモデル(VPRMs)を導入する。
本稿では, リスク・オブ・バイアス・アセスメント(リスク・オブ・バイアス・アセスメント, リスク・オブ・バイアス・アセスメント, 医療エビデンス・シンセサイザー) にVPRMを適用した。
複数のデータセットにまたがって、VPRMはドメインルールに忠実な推論を生成し、ステップレベルの決定と最終ラベルの一貫性を大幅に向上させる。
その結果、VPRMは最先端モデルよりも最大20%高いF1、検証可能な結果報酬より6.5%高いF1を達成でき、証拠の根拠と論理的一貫性は著しく向上した。
関連論文リスト
- From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - A Survey of Process Reward Models: From Outcome Signals to Process Supervisions for Large Language Models [31.650962391182798]
この調査は、完全なループを通して、PRMの体系的な概要を提供する。
数学、コード、テキスト、マルチモーダル推論、ロボット工学、エージェントにまたがる応用を要約する。
私たちのゴールは、設計空間を明確にし、オープンな課題を明らかにし、きめ細かな、堅牢な推論アライメントに向けた将来の研究を導くことです。
論文 参考訳(メタデータ) (2025-10-09T10:35:31Z) - Linking Process to Outcome: Conditional Reward Modeling for LLM Reasoning [30.302863491794543]
Process Reward Models (PRM) は、最終回答に向けてステップバイステップの推論を導くことを目的としている。
既存のPRMは、ステップ間の依存関係をキャプチャしたり、プロセスの報酬を最終的な結果と整合させるのに失敗します。
本稿では,時間的プロセスとして推論をフレーム化して正解を導く条件付きリワードモデリングを提案する。
論文 参考訳(メタデータ) (2025-09-30T17:38:45Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [75.72672339168092]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。
ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。
マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文 参考訳(メタデータ) (2025-01-14T05:56:26Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。