論文の概要: Adversarial Training for Process Reward Models
- arxiv url: http://arxiv.org/abs/2511.22888v1
- Date: Fri, 28 Nov 2025 05:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.775176
- Title: Adversarial Training for Process Reward Models
- Title(参考訳): プロセスリワードモデルの逆行訓練
- Authors: Gurusha Juneja, Deepak Nathani, William Yang Wang,
- Abstract要約: そこでは、ジェネレータ(G$)が、PRM(R$)を欺くための推論エラーを生成することを学習する。
この相互作用は、R$に対して徐々に強みをもたらし、手動のステップレベルラベルを必要とせずに、その堅牢性を改善し、新しいエラーを一般化する。
- 参考スコア(独自算出の注目度): 47.92183495904245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Process Reward Models (PRMs) enhance reasoning ability of LLMs by providing step-level supervision. However, their widespread adoption is limited due to expensive manual step-level annotation and poor generalization of static training data to novel errors. We introduce Adversarially Trained PRMs (\texttt{APRM}), where a Generator ($G$) learns to produce reasoning errors to deceive a PRM ($R$), while $R$ concurrently learns to detect them. This interaction yields progressively harder negatives for $R$, improving its robustness and generalization to novel errors without requiring manual step-level labels. Averaged across diverse mathematical reasoning benchmarks, \texttt{APRM} improves solver accuracy by $+3.4$ percentage points (pp) over the strongest PRM baseline. \texttt{APRM} achieves gains of $+5.3$ pp on out-of-distribution tasks.
- Abstract(参考訳): プロセス・リワード・モデル (Process Reward Models, PRMs) はステップレベルの監視を提供することでLCMの推論能力を高める。
しかし、それらの普及は、高価な手動のステップレベルのアノテーションと、新しいエラーに対する静的トレーニングデータの一般化が不十分なため、限られている。
そこでは、ジェネレータ(G$)が推理誤差を生成してPRM(R$)を欺くのを学習するのに対して、$R$は同時にそれらを検出することを学習する。
この相互作用は、R$に対して徐々に強みをもたらし、手動のステップレベルラベルを必要とせずに、その堅牢性を改善し、新しいエラーを一般化する。
様々な数学的推論ベンチマークで評価された \texttt{APRM} は、最強のPRMベースラインよりも3.4ドルのパーセンテージポイント (pp) のソルバ精度を向上させる。
\texttt{APRM} はアウト・オブ・ディストリビューションタスクにおいて$5.3$ pp のゲインを達成する。
関連論文リスト
- GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning [34.42899160708635]
自動プロセス監視のための木誘導・忠実度対応フレームワークであるGroundedPRMを紹介する。
グラウンドドPRMは40Kの自動的にラベル付けされたサンプルでトレーニングされており、自動ラベル付けされた監視で訓練された最高のパフォーマンスのPRMが使用するデータの10%しか使用できない。
ProcessBenchの平均パフォーマンスは最大で26%向上している。
論文 参考訳(メタデータ) (2025-10-16T17:54:07Z) - Generalizable Process Reward Models via Formally Verified Training Data [13.781401358802462]
FoVerは、正式な検証ツールによって自動的に注釈付けされた正確なステップレベルのエラーラベルでPRMトレーニングデータを合成するアプローチである。
実験により、FoVerでトレーニングされたPRMはクロスタスクの一般化を示し、単一のPRMが様々な推論タスクの検証を効果的に行えることを示した。
論文 参考訳(メタデータ) (2025-05-21T19:23:45Z) - Process Reward Models That Think [85.06022494911811]
ステップバイステップ検証 - プロセス報酬モデル(PRM)としても知られる - は、テスト時間スケーリングの鍵となる要素である。
この研究は、検証チェーン・オブ・シント(CoT)を生成することにより、ソリューションのすべてのステップを検証する言語化されたステップワイド報酬モデルとして、データ効率の高いPRMを構築することを目的としている。
我々は差別的PRMよりもプロセスラベルを桁違いに少なめに微調整した長いCoT検証器ThinkPRMを提案する。
論文 参考訳(メタデータ) (2025-04-23T15:44:54Z) - AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence [29.551802573731305]
本稿では,モデルが次の単語を予測する自信に基づいて推論ステップを分割する手法であるAdaptiveStepを提案する。
数理推論およびコード生成タスクにおいて,AdaptiveStep-trained PRMを用いた実験により実効性を示す。
論文 参考訳(メタデータ) (2025-02-19T18:35:55Z) - Free Process Rewards without Process Labels [55.14044050782222]
より安価な応答レベルラベルでORMをトレーニングすることで,テキストシンプルなPRMを追加のコストで得ることができることを示す。
我々の暗黙のPRMは、クロスエントロピー(CE)損失でインスタンス化されると、よりデータ効率が良く、命令1回に1回しか応答しない訓練でも生成モデルを改善することができることを示す。
論文 参考訳(メタデータ) (2024-12-02T21:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。