論文の概要: Towards Robust Process Reward Modeling via Noise-aware Learning
- arxiv url: http://arxiv.org/abs/2601.12748v1
- Date: Mon, 19 Jan 2026 06:03:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.774381
- Title: Towards Robust Process Reward Modeling via Noise-aware Learning
- Title(参考訳): 雑音認識学習によるロバストプロセスリワードモデリングに向けて
- Authors: Bin Xie, Bingbing Xu, Xueyun Tian, Yilin Chen, Huawei Shen,
- Abstract要約: 騒音の監視を緩和する2段階の枠組みを提案する。
ラベル付け段階では,大言語モデル(LLM)を判断として用いたリフレクション対応ラベル補正機構を導入する。
トレーニング段階において、PRMが徐々にノイズラベルを洗練させるアンダーラインテキストbfIterative underlinetextbfTrainingフレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.1289107681179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Process Reward Models (PRMs) have achieved strong results in complex reasoning, but are bottlenecked by costly process-level supervision. A widely used alternative, Monte Carlo Estimation (MCE), defines process rewards as the probability that a policy model reaches the correct final answer from a given reasoning step. However, step correctness is an intrinsic property of the reasoning trajectory, and should be invariant to policy choice. Our empirical findings show that MCE producing policy-dependent rewards that induce label noise, including false positives that reward incorrect steps and false negatives that penalize correct ones. To address above challenges, we propose a two-stage framework to mitigate noisy supervision. In the labeling stage, we introduce a reflection-aware label correction mechanism that uses a large language model (LLM) as a judge to detect reflection and self-correction behaviors related to the current reasoning step, thereby suppressing overestimated rewards. In the training stage, we further propose a \underline{\textbf{N}}oise-\underline{\textbf{A}}ware \underline{\textbf{I}}terative \underline{\textbf{T}}raining framework that enables the PRM to progressively refine noisy labels based on its own confidence. Extensive Experiments show that our method substantially improves step-level correctness discrimination, achieving up to a 27\% absolute gain in average F1 over PRMs trained with noisy supervision.
- Abstract(参考訳): プロセス・リワード・モデル (Process Reward Models, PRM) は複雑な推論において大きな成果を上げているが、コストのかかるプロセスレベルの監視によってボトルネックとなる。
広く使われている代替案であるモンテカルロ推定(MCE)は、プロセス報酬を、ポリシーモデルが与えられた推論ステップから正しい最終回答に達する確率として定義している。
しかし、ステップ正当性は推論軌道の本質的な性質であり、政策選択に不変であるべきである。
実験の結果,MCEはラベルノイズを誘発するポリシーに依存した報酬を産み出すことが明らかとなった。
以上の課題に対処するため,ノイズを緩和する2段階の枠組みを提案する。
ラベル付け段階では、大きな言語モデル(LLM)を判断として用いたリフレクション対応ラベル補正機構を導入し、現在の推論ステップに関連するリフレクションと自己補正の振る舞いを検出し、過大評価された報酬を抑制する。
トレーニング段階では、さらに、PRMが自身の信頼度に基づいてノイズラベルを段階的に洗練することを可能にする、Shaunderline{\textbf{N}}oise-\underline{\textbf{A}}ware \underline{\textbf{I}}terative \underline{\textbf{T}}レイニングフレームワークを提案する。
広汎な実験により,本手法はステップレベルの正当性判定を著しく改善し,ノイズを伴って訓練したPRMに対して平均F1の絶対利得を最大27倍に向上することが示された。
関連論文リスト
- GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning [34.42899160708635]
自動プロセス監視のための木誘導・忠実度対応フレームワークであるGroundedPRMを紹介する。
グラウンドドPRMは40Kの自動的にラベル付けされたサンプルでトレーニングされており、自動ラベル付けされた監視で訓練された最高のパフォーマンスのPRMが使用するデータの10%しか使用できない。
ProcessBenchの平均パフォーマンスは最大で26%向上している。
論文 参考訳(メタデータ) (2025-10-16T17:54:07Z) - Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文 参考訳(メタデータ) (2025-10-15T15:51:59Z) - Curing Miracle Steps in LLM Mathematical Reasoning with Rubric Rewards [40.905635870672945]
数学的推論のための大きな言語モデルは、通常結果に基づく報酬で訓練される。
我々の実験では、このパラダイムがハッキングに報酬を与える可能性が高く、モデルの推論能力のかなりの過大評価につながります。
これは、偽陽性の頻度が高いことが証明されている。
論文 参考訳(メタデータ) (2025-10-09T04:30:45Z) - Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning [50.20267980386502]
我々は、専門家によるデモンストレーションから直接、プロセスの監督のための密集したトークンレベルの報酬モデルを学びます。
学習された推論報酬は、2つの補完的な役割を果たす: (i)訓練中の推論ポリシーを最適化するためのステップレベルのフィードバックを提供する。
論文 参考訳(メタデータ) (2025-10-02T09:55:26Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Linking Process to Outcome: Conditional Reward Modeling for LLM Reasoning [30.302863491794543]
Process Reward Models (PRM) は、最終回答に向けてステップバイステップの推論を導くことを目的としている。
既存のPRMは、ステップ間の依存関係をキャプチャしたり、プロセスの報酬を最終的な結果と整合させるのに失敗します。
本稿では,時間的プロセスとして推論をフレーム化して正解を導く条件付きリワードモデリングを提案する。
論文 参考訳(メタデータ) (2025-09-30T17:38:45Z) - Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training [26.589591658693962]
RLVRのアウトカム・リワード・モデル(ORM)は粗い粒度であり、正しい答えの中で欠陥のある推論を区別できない。
Process Reward Models (PRM) は、中間ステップの詳細なガイダンスを提供する。
PRocess cOnsistency Filter (PROF) を導入し, ノイズの多い, きめ細かいプロセス報酬と, 粗い結果報酬とを調和させる。
論文 参考訳(メタデータ) (2025-09-03T15:28:51Z) - Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning [90.23629291067763]
大規模言語モデルにおける推論を改善するための有望なアプローチは、プロセス報酬モデル(PRM)を使用することである。
PRMは多段階の推論トレースの各ステップでフィードバックを提供し、結果報酬モデル(ORM)よりも信用割当を改善する可能性がある。
PRMに対して探索を行ったり、強化学習(RL)の報酬として使ったりすることで、基本方針を改善するために、「プロセス報酬をどう設計すべきか?」と質問する。
理論的には,良質なプロデューサの集合を特徴付けるとともに,このようなプロデューサからのプロセス報酬の最適化が,テスト時間探索やオンラインRLの探索を改善することを示す。
論文 参考訳(メタデータ) (2024-10-10T17:31:23Z) - Two-phase Pseudo Label Densification for Self-training based Domain
Adaptation [93.03265290594278]
TPLDと呼ばれる,新規な二相擬似ラベル高密度化フレームワークを提案する。
第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。
第2フェーズでは,信頼度に基づく容易な分類を行う。
トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。
論文 参考訳(メタデータ) (2020-12-09T02:35:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。