論文の概要: Adversarial Training for Process Reward Models
- arxiv url: http://arxiv.org/abs/2511.22888v1
- Date: Fri, 28 Nov 2025 05:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.775176
- Title: Adversarial Training for Process Reward Models
- Title(参考訳): プロセスリワードモデルの逆行訓練
- Authors: Gurusha Juneja, Deepak Nathani, William Yang Wang,
- Abstract要約: そこでは、ジェネレータ(G$)が、PRM(R$)を欺くための推論エラーを生成することを学習する。
この相互作用は、R$に対して徐々に強みをもたらし、手動のステップレベルラベルを必要とせずに、その堅牢性を改善し、新しいエラーを一般化する。
- 参考スコア(独自算出の注目度): 47.92183495904245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Process Reward Models (PRMs) enhance reasoning ability of LLMs by providing step-level supervision. However, their widespread adoption is limited due to expensive manual step-level annotation and poor generalization of static training data to novel errors. We introduce Adversarially Trained PRMs (\texttt{APRM}), where a Generator ($G$) learns to produce reasoning errors to deceive a PRM ($R$), while $R$ concurrently learns to detect them. This interaction yields progressively harder negatives for $R$, improving its robustness and generalization to novel errors without requiring manual step-level labels. Averaged across diverse mathematical reasoning benchmarks, \texttt{APRM} improves solver accuracy by $+3.4$ percentage points (pp) over the strongest PRM baseline. \texttt{APRM} achieves gains of $+5.3$ pp on out-of-distribution tasks.
- Abstract(参考訳): プロセス・リワード・モデル (Process Reward Models, PRMs) はステップレベルの監視を提供することでLCMの推論能力を高める。
しかし、それらの普及は、高価な手動のステップレベルのアノテーションと、新しいエラーに対する静的トレーニングデータの一般化が不十分なため、限られている。
そこでは、ジェネレータ(G$)が推理誤差を生成してPRM(R$)を欺くのを学習するのに対して、$R$は同時にそれらを検出することを学習する。
この相互作用は、R$に対して徐々に強みをもたらし、手動のステップレベルラベルを必要とせずに、その堅牢性を改善し、新しいエラーを一般化する。
様々な数学的推論ベンチマークで評価された \texttt{APRM} は、最強のPRMベースラインよりも3.4ドルのパーセンテージポイント (pp) のソルバ精度を向上させる。
\texttt{APRM} はアウト・オブ・ディストリビューションタスクにおいて$5.3$ pp のゲインを達成する。
関連論文リスト
- Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning [34.42899160708635]
自動プロセス監視のための木誘導・忠実度対応フレームワークであるGroundedPRMを紹介する。
グラウンドドPRMは40Kの自動的にラベル付けされたサンプルでトレーニングされており、自動ラベル付けされた監視で訓練された最高のパフォーマンスのPRMが使用するデータの10%しか使用できない。
ProcessBenchの平均パフォーマンスは最大で26%向上している。
論文 参考訳(メタデータ) (2025-10-16T17:54:07Z) - When Agents go Astray: Course-Correcting SWE Agents with PRMs [7.017285839527226]
大規模言語モデル(LLM)エージェントは、複雑で多段階のソフトウェア工学(SWE)タスクにますますデプロイされる。
彼らの軌道はしばしば、冗長な探索、ループ、解が到達した後に終了する失敗など、コストのかかる非効率を含んでいる。
本稿では,SWE-PRM(Inference-time Process Reward Model, PRM)を導入する。
論文 参考訳(メタデータ) (2025-09-02T14:23:15Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - Generalizable Process Reward Models via Formally Verified Training Data [13.781401358802462]
FoVerは、正式な検証ツールによって自動的に注釈付けされた正確なステップレベルのエラーラベルでPRMトレーニングデータを合成するアプローチである。
実験により、FoVerでトレーニングされたPRMはクロスタスクの一般化を示し、単一のPRMが様々な推論タスクの検証を効果的に行えることを示した。
論文 参考訳(メタデータ) (2025-05-21T19:23:45Z) - Beyond the First Error: Process Reward Models for Reflective Mathematical Reasoning [49.21525229904197]
本研究では,長いCoT推論プロセスのスコアリングに特化して設計されたPRMのための新しいデータアノテーション手法を提案する。
本稿では, 誤り伝播と誤認識の概念を導入し, PRMの効果的な自己訂正行動と誤ったステップに基づく推論の両方を識別する能力を高めた。
我々のPRMは,探索誘導,BoN,F1スコアなど,様々な指標で優れた性能を実現している。
論文 参考訳(メタデータ) (2025-05-20T14:12:05Z) - Process Reward Models That Think [85.06022494911811]
ステップバイステップ検証 - プロセス報酬モデル(PRM)としても知られる - は、テスト時間スケーリングの鍵となる要素である。
この研究は、検証チェーン・オブ・シント(CoT)を生成することにより、ソリューションのすべてのステップを検証する言語化されたステップワイド報酬モデルとして、データ効率の高いPRMを構築することを目的としている。
我々は差別的PRMよりもプロセスラベルを桁違いに少なめに微調整した長いCoT検証器ThinkPRMを提案する。
論文 参考訳(メタデータ) (2025-04-23T15:44:54Z) - AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence [29.551802573731305]
本稿では,モデルが次の単語を予測する自信に基づいて推論ステップを分割する手法であるAdaptiveStepを提案する。
数理推論およびコード生成タスクにおいて,AdaptiveStep-trained PRMを用いた実験により実効性を示す。
論文 参考訳(メタデータ) (2025-02-19T18:35:55Z) - Free Process Rewards without Process Labels [55.14044050782222]
より安価な応答レベルラベルでORMをトレーニングすることで,テキストシンプルなPRMを追加のコストで得ることができることを示す。
我々の暗黙のPRMは、クロスエントロピー(CE)損失でインスタンス化されると、よりデータ効率が良く、命令1回に1回しか応答しない訓練でも生成モデルを改善することができることを示す。
論文 参考訳(メタデータ) (2024-12-02T21:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。