論文の概要: FreePRM: Training Process Reward Models Without Ground Truth Process Labels
- arxiv url: http://arxiv.org/abs/2506.03570v1
- Date: Wed, 04 Jun 2025 04:33:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.15601
- Title: FreePRM: Training Process Reward Models Without Ground Truth Process Labels
- Title(参考訳): FreePRM:グラウンド・トゥルース・プロセス・ラベルのないトレーニング・プロセス・リワード・モデル
- Authors: Lin Sun, Chuang Liu, Xiaofeng Ma, Tao Yang, Weijia Lu, Ning Wu,
- Abstract要約: FreePRMは、地味なステップレベルラベルにアクセスせずにPRMをトレーニングするための弱い教師付きフレームワークである。
実験の結果、FreePRMはProcessBenchで平均F1スコアを53.0%達成し、Math-Shepherdでトレーニングされた完全教師付きPRMを+24.1%上回った。
- 参考スコア(独自算出の注目度): 15.154544065092628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have demonstrated that Process Reward Models (PRMs) play a crucial role in enhancing model performance. However, training PRMs typically requires step-level labels, either manually annotated or automatically generated, which can be costly and difficult to obtain at scale. To address this challenge, we introduce FreePRM, a weakly supervised framework for training PRMs without access to ground-truth step-level labels. FreePRM first generates pseudo step-level labels based on the correctness of final outcome, and then employs Buffer Probability to eliminate impact of noise inherent in pseudo labeling. Experimental results show that FreePRM achieves an average F1 score of 53.0% on ProcessBench, outperforming fully supervised PRM trained on Math-Shepherd by +24.1%. Compared to other open-source PRMs, FreePRM outperforms upon RLHFlow-PRM-Mistral-8B (28.4%) by +24.6%, EurusPRM (31.3%) by +21.7%, and Skywork-PRM-7B (42.1%) by +10.9%. This work introduces a new paradigm in PRM training, significantly reducing reliance on costly step-level annotations while maintaining strong performance.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、プロセス・リワード・モデル(PRM)がモデルの性能向上に重要な役割を果たすことを示した。
しかしながら、PRMのトレーニングは通常、手動で注釈付けまたは自動生成されるステップレベルのラベルを必要とする。
この課題に対処するために,本研究では,PRMのトレーニングを行う弱教師付きフレームワークであるFreePRMを紹介した。
FreePRMは、まず最終結果の正しさに基づいて擬似ステップレベルラベルを生成し、次に、擬似ラベリングに固有のノイズの影響を排除するためにBuffer Probabilityを使用する。
実験の結果、FreePRMはProcessBenchで平均F1スコアを53.0%達成し、Math-Shepherdでトレーニングされた完全教師付きPRMを+24.1%上回った。
他のオープンソースPRMと比較して、FreePRMはRLHFlow-PRM-Mistral-8B (28.4%) +24.6%、EurosPRM (31.3%) +21.7%、Skywork-PRM-7B (42.1%) +10.9%で性能が向上した。
この研究は、PRMトレーニングにおける新しいパラダイムを導入し、高いパフォーマンスを維持しながら、コストのかかるステップレベルのアノテーションへの依存を著しく低減します。
関連論文リスト
- VRPRM: Process Reward Modeling via Visual Reasoning [1.4076905229310113]
視覚的推論によるプロセス報酬モデルであるVRPRMを提案し、効率的な2段階トレーニング戦略を設計する。
わずか3.6KのCoT-PRM SFTデータと50Kの非CoT PRM RLトレーニングデータを使用すると、VRPRMは総データ量400Kの非考えのPRMを超えることができる。
論文 参考訳(メタデータ) (2025-08-05T15:25:24Z) - Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model [56.92219181993453]
本稿では,PPOやGRPOなどのオンラインRFT手法をオフ・ポリティクスデータに活用するために,Reincarnating Mix-policy Proximal Policy Gradient (ReMix)を提案する。
ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から安定した改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2025-07-09T14:29:45Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [56.32212611983997]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - Training Step-Level Reasoning Verifiers with Formal Verification Tools [10.625896243556578]
本稿では,形式的検証ツールによって自動的に注釈付けされたステップレベルのエラーラベルに対して,PRMをトレーニングするためのアプローチであるFoVerを提案する。
FoVerは形式的検証と互換性のあるタスクに対してのみ使用可能である。
LLMをベースとしたPRMは,多種多様な推論タスクの検証を改善し,クロスタスクの一般化を示す。
論文 参考訳(メタデータ) (2025-05-21T19:23:45Z) - Process Reward Models That Think [86.88809596842428]
ステップバイステップ検証 - プロセス報酬モデル(PRM)としても知られる - は、テスト時間スケーリングの鍵となる要素である。
この研究は、検証チェーン・オブ・シント(CoT)を生成することにより、ソリューションのすべてのステップを検証する言語化されたステップワイド報酬モデルとして、データ効率の高いPRMを構築することを目的としている。
我々は差別的PRMよりもプロセスラベルを桁違いに少なめに微調整した長いCoT検証器ThinkPRMを提案する。
論文 参考訳(メタデータ) (2025-04-23T15:44:54Z) - Efficient Process Reward Model Training via Active Learning [27.846449143217704]
プロセス・リワード・モデル(PRM)は、大規模言語モデル(LLM)の段階的な監視を提供する。
本稿では,トレーニングにおける最も不確実なサンプルを積極的に選択する,アクティブな学習手法であるActPRMを提案する。
有能だがコストのかかる推論モデルがこのデータをラベル付けする。
この選択されたデータセットの後のトレーニングでは、ProcessBench (75.0%) と PRMBench (65.5%) の新たな最先端(SOTA) PRMが同じサイズのモデルと比較される。
論文 参考訳(メタデータ) (2025-04-14T14:53:56Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - Free Process Rewards without Process Labels [55.14044050782222]
より安価な応答レベルラベルでORMをトレーニングすることで,テキストシンプルなPRMを追加のコストで得ることができることを示す。
我々の暗黙のPRMは、クロスエントロピー(CE)損失でインスタンス化されると、よりデータ効率が良く、命令1回に1回しか応答しない訓練でも生成モデルを改善することができることを示す。
論文 参考訳(メタデータ) (2024-12-02T21:20:02Z) - RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。