論文の概要: SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward Learning
- arxiv url: http://arxiv.org/abs/2509.16548v1
- Date: Sat, 20 Sep 2025 06:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.851309
- Title: SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward Learning
- Title(参考訳): SCAN:ロバストなプロセスリワード学習のための自己記述型モンテカルロアノテーション
- Authors: Yuyang Ding, Xinyu Shi, Juntao Li, Xiaobo Liang, Zhaopeng Tu, Min Zhang,
- Abstract要約: プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)におけるより深い推論プロセスを促進する
PRMは、人間の注釈付きデータの高いコストと限られたスケーラビリティのために開発が困難である。
本稿では,効率的なデータ合成と耐雑音性学習フレームワークであるSelf-Denoising Monte Carlo CAN (SCAN)を提案する。
- 参考スコア(独自算出の注目度): 76.61439010634872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Process reward models (PRMs) offer fine-grained, step-level evaluations that facilitate deeper reasoning processes in large language models (LLMs), proving effective in complex tasks like mathematical reasoning. However, developing PRMs is challenging due to the high cost and limited scalability of human-annotated data. Synthetic data from Monte Carlo (MC) estimation is a promising alternative but suffers from a high noise ratio, which can cause overfitting and hinder large-scale training. In this work, we conduct a preliminary study on the noise distribution in synthetic data from MC estimation, identifying that annotation models tend to both underestimate and overestimate step correctness due to limitations in their annotation capabilities. Building on these insights, we propose Self-Denoising Monte Carlo Annotation (SCAN), an efficient data synthesis and noise-tolerant learning framework. Our key findings indicate that: (1) Even lightweight models (e.g., 1.5B parameters) can produce high-quality annotations through a self-denoising strategy, enabling PRMs to achieve superior performance with only 6% the inference cost required by vanilla MC estimation. (2) With our robust learning strategy, PRMs can effectively learn from this weak supervision, achieving a 39.2 F1 score improvement (from 19.9 to 59.1) in ProcessBench. Despite using only a compact synthetic dataset, our models surpass strong baselines, including those trained on large-scale human-annotated datasets such as PRM800K. Furthermore, performance continues to improve as we scale up the synthetic data, highlighting the potential of SCAN for scalable, cost-efficient, and robust PRM training.
- Abstract(参考訳): プロセス報酬モデル(PRMs)は、大規模言語モデル(LLMs)におけるより深い推論プロセスを促進する、きめ細かいステップレベルの評価を提供する。
しかし,人間による注釈付きデータの高コスト化とスケーラビリティの限界のため,PRMの開発は困難である。
モンテカルロ(MC)の推定による合成データは有望な代替手段であるが、高雑音比に悩まされており、過度な適合と大規模な訓練を妨げる可能性がある。
本研究では,MC推定から得られた合成データの雑音分布に関する予備的な研究を行い,アノテーションモデルがアノテーション能力の限界により過小評価され,過大評価される傾向にあることを示した。
これらの知見に基づいて,効率的なデータ合成および耐雑音学習フレームワークである自己記述型モンテカルロアノテーション(SCAN)を提案する。
その結果, 1) 軽量モデル(例えば1.5Bパラメータ)であっても, 自己退化戦略により高品質なアノテーションを生成でき, PRM はバニラMC推定による推論コストの6%程度で優れた性能を達成できることがわかった。
2) 堅牢な学習戦略により, PRMはプロセスベンチにおいて39.2 F1スコアの改善(19.9から59.1)を達成し, この弱い監督から効果的に学習することができる。
コンパクトな合成データセットのみを使用しても、私たちのモデルは、PRM800Kのような大規模な人文注釈データセットでトレーニングされたデータセットを含む、強力なベースラインを超えます。
さらに、私たちは合成データをスケールアップし、スケーラブルでコスト効率が高く、堅牢なPRMトレーニングのためのSCANの可能性を強調しながら、パフォーマンスを向上し続けています。
関連論文リスト
- Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - From Mathematical Reasoning to Code: Generalization of Process Reward Models in Test-Time Scaling [32.72867198629561]
プレトレーニングと報奨モデルトレーニング FLOP の相互作用について検討し,PRM の効率と精度への影響を評価する。
以上の結果から,数式データセットに基づいてトレーニングしたPRMは,コード生成に適した性能を示すことがわかった。
論文 参考訳(メタデータ) (2025-05-24T12:44:15Z) - Two Minds Better Than One: Collaborative Reward Modeling for LLM Alignment [35.80989342492335]
人間のフィードバックのノイズの多い好みは 報酬の一般化に繋がる
本研究の目的は,報酬モデルにおいて,騒音の嗜好が人間の嗜好とどのように異なるかを明らかにすることである。
我々は、堅牢な選好学習を実現するためのオンラインコラボレーション・リワード・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T10:58:20Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [33.547353090281284]
階層的リワードモデルと呼ばれる新しい報酬モデル手法を提案する。
個々の推論ステップと連続推論ステップを、きめ細かいレベルと粗いレベルの両方で評価する。
これは多段階推論コヒーレンスの評価に優れており、特に欠陥のあるステップが後に自己回帰によって修正される場合である。
論文 参考訳(メタデータ) (2025-03-16T15:18:40Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。