論文の概要: Efficient Process Reward Model Training via Active Learning
- arxiv url: http://arxiv.org/abs/2504.10559v1
- Date: Mon, 14 Apr 2025 14:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 11:51:03.252228
- Title: Efficient Process Reward Model Training via Active Learning
- Title(参考訳): 能動学習による効率的なプロセスリワードモデルトレーニング
- Authors: Keyu Duan, Zichen Liu, Xin Mao, Tianyu Pang, Changyu Chen, Qiguang Chen, Michael Qizhe Shieh, Longxu Dou,
- Abstract要約: プロセス・リワード・モデル(PRM)は、大規模言語モデル(LLM)の段階的な監視を提供する。
本稿では,トレーニングにおける最も不確実なサンプルを積極的に選択する,アクティブな学習手法であるActPRMを提案する。
有能だがコストのかかる推論モデルがこのデータをラベル付けする。
この選択されたデータセットの後のトレーニングでは、ProcessBench (75.0%) と PRMBench (65.5%) の新たな最先端(SOTA) PRMが同じサイズのモデルと比較される。
- 参考スコア(独自算出の注目度): 27.846449143217704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Process Reward Models (PRMs) provide step-level supervision to large language models (LLMs), but scaling up training data annotation remains challenging for both humans and LLMs. To address this limitation, we propose an active learning approach, ActPRM, which proactively selects the most uncertain samples for training, substantially reducing labeling costs. During training, we use the PRM to estimate uncertainty after the forward pass, retaining only highly uncertain data. A capable yet costly reasoning model then labels this data. Then we compute the loss with respect to the labels and update the PRM's weights. We compare ActPRM vs. vanilla fine-tuning, on a pool-based active learning setting, demonstrating that ActPRM reduces 50% annotation, but achieving the comparable or even better performance. Beyond annotation efficiency, we further advance the actively trained PRM by filtering over 1M+ math reasoning trajectories with ActPRM, retaining 60% of the data. A subsequent training on this selected dataset yields a new state-of-the-art (SOTA) PRM on ProcessBench (75.0%) and PRMBench (65.5%) compared with same sized models.
- Abstract(参考訳): Process Reward Models(PRM)は、大規模言語モデル(LLM)の段階的な監視を提供するが、トレーニングデータアノテーションのスケールアップは人間とLLMの両方にとって依然として困難である。
この制限に対処するために、トレーニングのための最も不確実なサンプルを積極的に選択し、ラベリングコストを大幅に削減するアクティブラーニングアプローチであるActPRMを提案する。
トレーニング中、PRMを用いて前方通過後の不確実性を推定し、極めて不確実なデータのみを保持する。
有能だがコストのかかる推論モデルがこのデータをラベル付けする。
次に、ラベルに関する損失を計算し、PRMの重みを更新する。
ActPRMとバニラファインチューニングをプールベースのアクティブラーニング環境で比較し、ActPRMがアノテーションを50%削減するが、同等あるいはそれ以上のパフォーマンスを達成することを実証する。
アノテーション効率以外にも、ActPRMで1M以上の数理推論軌道をフィルタリングすることで、積極的に訓練されたPRMをさらに前進させ、データの60%を保持します。
この選択されたデータセットの後のトレーニングでは、ProcessBench (75.0%) と PRMBench (65.5%) の新たな最先端(SOTA) PRMが同じサイズのモデルと比較される。
関連論文リスト
- VRPRM: Process Reward Modeling via Visual Reasoning [1.4076905229310113]
視覚的推論によるプロセス報酬モデルであるVRPRMを提案し、効率的な2段階トレーニング戦略を設計する。
わずか3.6KのCoT-PRM SFTデータと50Kの非CoT PRM RLトレーニングデータを使用すると、VRPRMは総データ量400Kの非考えのPRMを超えることができる。
論文 参考訳(メタデータ) (2025-08-05T15:25:24Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [56.32212611983997]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - FreePRM: Training Process Reward Models Without Ground Truth Process Labels [15.154544065092628]
FreePRMは、地味なステップレベルラベルにアクセスせずにPRMをトレーニングするための弱い教師付きフレームワークである。
実験の結果、FreePRMはProcessBenchで平均F1スコアを53.0%達成し、Math-Shepherdでトレーニングされた完全教師付きPRMを+24.1%上回った。
論文 参考訳(メタデータ) (2025-06-04T04:33:53Z) - Training Step-Level Reasoning Verifiers with Formal Verification Tools [10.625896243556578]
本稿では,形式的検証ツールによって自動的に注釈付けされたステップレベルのエラーラベルに対して,PRMをトレーニングするためのアプローチであるFoVerを提案する。
FoVerは形式的検証と互換性のあるタスクに対してのみ使用可能である。
LLMをベースとしたPRMは,多種多様な推論タスクの検証を改善し,クロスタスクの一般化を示す。
論文 参考訳(メタデータ) (2025-05-21T19:23:45Z) - Beyond the First Error: Process Reward Models for Reflective Mathematical Reasoning [49.21525229904197]
本研究では,長いCoT推論プロセスのスコアリングに特化して設計されたPRMのための新しいデータアノテーション手法を提案する。
本稿では, 誤り伝播と誤認識の概念を導入し, PRMの効果的な自己訂正行動と誤ったステップに基づく推論の両方を識別する能力を高めた。
我々のPRMは,探索誘導,BoN,F1スコアなど,様々な指標で優れた性能を実現している。
論文 参考訳(メタデータ) (2025-05-20T14:12:05Z) - Process Reward Models That Think [86.88809596842428]
ステップバイステップ検証 - プロセス報酬モデル(PRM)としても知られる - は、テスト時間スケーリングの鍵となる要素である。
この研究は、検証チェーン・オブ・シント(CoT)を生成することにより、ソリューションのすべてのステップを検証する言語化されたステップワイド報酬モデルとして、データ効率の高いPRMを構築することを目的としている。
我々は差別的PRMよりもプロセスラベルを桁違いに少なめに微調整した長いCoT検証器ThinkPRMを提案する。
論文 参考訳(メタデータ) (2025-04-23T15:44:54Z) - Entropy-Based Adaptive Weighting for Self-Training [15.089334734753677]
自己学習のためのエントロピーに基づく適応重み付け(EAST)を提案する。
EASTは、自己学習中に不確実なデータを優先順位付けするために設計された適応的な重み付け戦略である。
我々はGSM8KおよびMATHベンチマークに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-31T10:04:35Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Free Process Rewards without Process Labels [55.14044050782222]
より安価な応答レベルラベルでORMをトレーニングすることで,テキストシンプルなPRMを追加のコストで得ることができることを示す。
我々の暗黙のPRMは、クロスエントロピー(CE)損失でインスタンス化されると、よりデータ効率が良く、命令1回に1回しか応答しない訓練でも生成モデルを改善することができることを示す。
論文 参考訳(メタデータ) (2024-12-02T21:20:02Z) - Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning [90.23629291067763]
大規模言語モデルにおける推論を改善するための有望なアプローチは、プロセス報酬モデル(PRM)を使用することである。
PRMは多段階の推論トレースの各ステップでフィードバックを提供し、結果報酬モデル(ORM)よりも信用割当を改善する可能性がある。
PRMに対して探索を行ったり、強化学習(RL)の報酬として使ったりすることで、基本方針を改善するために、「プロセス報酬をどう設計すべきか?」と質問する。
理論的には,良質なプロデューサの集合を特徴付けるとともに,このようなプロデューサからのプロセス報酬の最適化が,テスト時間探索やオンラインRLの探索を改善することを示す。
論文 参考訳(メタデータ) (2024-10-10T17:31:23Z) - Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。