論文の概要: FreePRM: Training Process Reward Models Without Ground Truth Process Labels
- arxiv url: http://arxiv.org/abs/2506.03570v1
- Date: Wed, 04 Jun 2025 04:33:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.15601
- Title: FreePRM: Training Process Reward Models Without Ground Truth Process Labels
- Title(参考訳): FreePRM:グラウンド・トゥルース・プロセス・ラベルのないトレーニング・プロセス・リワード・モデル
- Authors: Lin Sun, Chuang Liu, Xiaofeng Ma, Tao Yang, Weijia Lu, Ning Wu,
- Abstract要約: FreePRMは、地味なステップレベルラベルにアクセスせずにPRMをトレーニングするための弱い教師付きフレームワークである。
実験の結果、FreePRMはProcessBenchで平均F1スコアを53.0%達成し、Math-Shepherdでトレーニングされた完全教師付きPRMを+24.1%上回った。
- 参考スコア(独自算出の注目度): 15.154544065092628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have demonstrated that Process Reward Models (PRMs) play a crucial role in enhancing model performance. However, training PRMs typically requires step-level labels, either manually annotated or automatically generated, which can be costly and difficult to obtain at scale. To address this challenge, we introduce FreePRM, a weakly supervised framework for training PRMs without access to ground-truth step-level labels. FreePRM first generates pseudo step-level labels based on the correctness of final outcome, and then employs Buffer Probability to eliminate impact of noise inherent in pseudo labeling. Experimental results show that FreePRM achieves an average F1 score of 53.0% on ProcessBench, outperforming fully supervised PRM trained on Math-Shepherd by +24.1%. Compared to other open-source PRMs, FreePRM outperforms upon RLHFlow-PRM-Mistral-8B (28.4%) by +24.6%, EurusPRM (31.3%) by +21.7%, and Skywork-PRM-7B (42.1%) by +10.9%. This work introduces a new paradigm in PRM training, significantly reducing reliance on costly step-level annotations while maintaining strong performance.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、プロセス・リワード・モデル(PRM)がモデルの性能向上に重要な役割を果たすことを示した。
しかしながら、PRMのトレーニングは通常、手動で注釈付けまたは自動生成されるステップレベルのラベルを必要とする。
この課題に対処するために,本研究では,PRMのトレーニングを行う弱教師付きフレームワークであるFreePRMを紹介した。
FreePRMは、まず最終結果の正しさに基づいて擬似ステップレベルラベルを生成し、次に、擬似ラベリングに固有のノイズの影響を排除するためにBuffer Probabilityを使用する。
実験の結果、FreePRMはProcessBenchで平均F1スコアを53.0%達成し、Math-Shepherdでトレーニングされた完全教師付きPRMを+24.1%上回った。
他のオープンソースPRMと比較して、FreePRMはRLHFlow-PRM-Mistral-8B (28.4%) +24.6%、EurosPRM (31.3%) +21.7%、Skywork-PRM-7B (42.1%) +10.9%で性能が向上した。
この研究は、PRMトレーニングにおける新しいパラダイムを導入し、高いパフォーマンスを維持しながら、コストのかかるステップレベルのアノテーションへの依存を著しく低減します。
関連論文リスト
- Training Step-Level Reasoning Verifiers with Formal Verification Tools [10.625896243556578]
本稿では,形式的検証ツールによって自動的に注釈付けされたステップレベルのエラーラベルに対して,PRMをトレーニングするためのアプローチであるFoVerを提案する。
FoVerは形式的検証と互換性のあるタスクに対してのみ使用可能である。
LLMをベースとしたPRMは,多種多様な推論タスクの検証を改善し,クロスタスクの一般化を示す。
論文 参考訳(メタデータ) (2025-05-21T19:23:45Z) - Process Reward Models That Think [86.88809596842428]
ステップバイステップ検証 - プロセス報酬モデル(PRM)としても知られる - は、テスト時間スケーリングの鍵となる要素である。
この研究は、検証チェーン・オブ・シント(CoT)を生成することにより、ソリューションのすべてのステップを検証する言語化されたステップワイド報酬モデルとして、データ効率の高いPRMを構築することを目的としている。
我々は差別的PRMよりもプロセスラベルを桁違いに少なめに微調整した長いCoT検証器ThinkPRMを提案する。
論文 参考訳(メタデータ) (2025-04-23T15:44:54Z) - Efficient Process Reward Model Training via Active Learning [27.846449143217704]
プロセス・リワード・モデル(PRM)は、大規模言語モデル(LLM)の段階的な監視を提供する。
本稿では,トレーニングにおける最も不確実なサンプルを積極的に選択する,アクティブな学習手法であるActPRMを提案する。
有能だがコストのかかる推論モデルがこのデータをラベル付けする。
この選択されたデータセットの後のトレーニングでは、ProcessBench (75.0%) と PRMBench (65.5%) の新たな最先端(SOTA) PRMが同じサイズのモデルと比較される。
論文 参考訳(メタデータ) (2025-04-14T14:53:56Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - Free Process Rewards without Process Labels [55.14044050782222]
より安価な応答レベルラベルでORMをトレーニングすることで,テキストシンプルなPRMを追加のコストで得ることができることを示す。
我々の暗黙のPRMは、クロスエントロピー(CE)損失でインスタンス化されると、よりデータ効率が良く、命令1回に1回しか応答しない訓練でも生成モデルを改善することができることを示す。
論文 参考訳(メタデータ) (2024-12-02T21:20:02Z) - RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。