論文の概要: Unsupervised Process Reward Models
- arxiv url: http://arxiv.org/abs/2605.10158v1
- Date: Mon, 11 May 2026 08:05:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.626033
- Title: Unsupervised Process Reward Models
- Title(参考訳): 非教師なしプロセスリワードモデル
- Authors: Artyom Gadetsky, Maxim Kodryan, Siba Smarak Panigrahi, Hang Guo, Maria Brbic,
- Abstract要約: プロセス・リワード・モデル(Process Reward Models、PRM)は、大規模言語モデル推論を操る強力なメカニズムである。
PRMは、すべての推論ステップに専門家のアノテーションを必要とします。
そこで本研究では,段階別アノテーションのレベルにおいても,最終回答の真正性検証においても,人間の監督を必要としない教師なしPRMの訓練方法を提案する。
- 参考スコア(独自算出の注目度): 22.283171054858496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Process Reward Models (PRMs) are a powerful mechanism for steering large language model reasoning by providing fine-grained, step-level supervision. However, this effectiveness comes at a significant cost: PRMs require expert annotations for every reasoning step, making them costly and difficult to scale. Here, we propose a method for training unsupervised PRMs (uPRM) that requires no human supervision, neither at the level of step-by-step annotations nor through ground-truth verification of final answers. The key idea behind our approach is to define a scoring function, derived from LLM next-token probabilities, that jointly assesses candidate positions of first erroneous steps across a batch of reasoning trajectories. We demonstrate the effectiveness of uPRM across diverse scenarios: (i) uPRM achieves up to 15% absolute accuracy improvements over the LLM-as-a-Judge in identifying first erroneous steps on the ProcessBench dataset; (ii) as a verifier for test-time scaling, uPRM performs comparably to supervised PRMs and outperforms the majority voting baseline by up to 6.9%, and (iii) when used as a reward signal in reinforcement learning, uPRM enables more robust policy optimization throughout training compared to a supervised PRM trained using ground-truth labels. Overall, our results open a path toward scalable reward modeling for complex reasoning tasks.
- Abstract(参考訳): プロセス・リワード・モデル(Process Reward Models、PRM)は、ステップレベルのきめ細かい監督を提供することで、大きな言語モデル推論を操る強力なメカニズムである。
PRMはすべての推論ステップに専門家のアノテーションを必要とするため、コストがかかり、スケールが難しくなります。
そこで本研究では,段階別アノテーションのレベルにおいても,最終回答の真真正性検証を通じても,人間の監督を必要としない非教師付きPRM(uPRM)の訓練方法を提案する。
提案手法の背景にある重要な考え方は、LLMの次確率から導かれるスコア関数を定義することであり、これは推論軌道のバッチにわたって、最初の誤ったステップの候補位置を共同で評価するものである。
様々なシナリオでuPRMの有効性を実証する。
i) uPRMは、ProcessBenchデータセット上の最初の誤ったステップを特定する際に、LLM-as-a-Judgeに対して最大15%の絶対精度の向上を達成する。
(ii)試験時間スケーリングの検証器として、uPRMは監督型PRMと互換性があり、多数決ベースラインを最大6.9%上回っている。
三 強化学習における報奨信号として用いる場合、uPRM は、地上構造ラベルを用いて訓練した教師付きPRM と比較して、訓練を通してより堅牢な政策最適化を可能にする。
全体として、我々の結果は複雑な推論タスクに対するスケーラブルな報酬モデリングへの道を開く。
関連論文リスト
- Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。
メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。
GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文 参考訳(メタデータ) (2026-02-03T11:41:02Z) - Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning [34.42899160708635]
自動プロセス監視のための木誘導・忠実度対応フレームワークであるGroundedPRMを紹介する。
グラウンドドPRMは40Kの自動的にラベル付けされたサンプルでトレーニングされており、自動ラベル付けされた監視で訓練された最高のパフォーマンスのPRMが使用するデータの10%しか使用できない。
ProcessBenchの平均パフォーマンスは最大で26%向上している。
論文 参考訳(メタデータ) (2025-10-16T17:54:07Z) - From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - Beyond the First Error: Process Reward Models for Reflective Mathematical Reasoning [49.21525229904197]
本研究では,長いCoT推論プロセスのスコアリングに特化して設計されたPRMのための新しいデータアノテーション手法を提案する。
本稿では, 誤り伝播と誤認識の概念を導入し, PRMの効果的な自己訂正行動と誤ったステップに基づく推論の両方を識別する能力を高めた。
我々のPRMは,探索誘導,BoN,F1スコアなど,様々な指標で優れた性能を実現している。
論文 参考訳(メタデータ) (2025-05-20T14:12:05Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Better Process Supervision with Bi-directional Rewarding Signals [41.929678717412266]
本稿では,過去の手順の正しさを評価するプロセス監視モデルであるBiRMを紹介し,今後の成功の可能性をモデル化する。
数学的推論のタスクについて広範な実験を行い、BiRMがLLM推論のステップをより正確に評価できることを実証した。
検索ベースの戦略では、より包括的なガイダンスを提供し、それぞれMATH-500でORMを5.0%、PRMを3.8%上回る。
論文 参考訳(メタデータ) (2025-03-06T17:03:17Z) - AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence [29.551802573731305]
本稿では,モデルが次の単語を予測する自信に基づいて推論ステップを分割する手法であるAdaptiveStepを提案する。
数理推論およびコード生成タスクにおいて,AdaptiveStep-trained PRMを用いた実験により実効性を示す。
論文 参考訳(メタデータ) (2025-02-19T18:35:55Z) - Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning [90.23629291067763]
大規模言語モデルにおける推論を改善するための有望なアプローチは、プロセス報酬モデル(PRM)を使用することである。
PRMは多段階の推論トレースの各ステップでフィードバックを提供し、結果報酬モデル(ORM)よりも信用割当を改善する可能性がある。
PRMに対して探索を行ったり、強化学習(RL)の報酬として使ったりすることで、基本方針を改善するために、「プロセス報酬をどう設計すべきか?」と質問する。
理論的には,良質なプロデューサの集合を特徴付けるとともに,このようなプロデューサからのプロセス報酬の最適化が,テスト時間探索やオンラインRLの探索を改善することを示す。
論文 参考訳(メタデータ) (2024-10-10T17:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。