論文の概要: The Bidirectional Process Reward Model
- arxiv url: http://arxiv.org/abs/2508.01682v1
- Date: Sun, 03 Aug 2025 09:23:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.005347
- Title: The Bidirectional Process Reward Model
- Title(参考訳): 双方向プロセスリワードモデル
- Authors: Lingyin Zhang, Jun Gao, Xiaoxue Ren, Ziqiang Cao,
- Abstract要約: 双方向プロセスリワードモデル(BiPRM)と呼ばれる新しい双方向評価パラダイムを提案する。
BiPRMは、従来のL2Rフローと並行して、並列右から左へ(R2L)評価ストリームをシームレスに組み込む。
3つの異なるポリシーモデルから生成されたサンプルを用いて、2つの数学的推論ベンチマークで広範な実験を行う。
- 参考スコア(独自算出の注目度): 9.082060895625958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Process Reward Models (PRMs) have emerged as a promising approach to enhance the reasoning quality of Large Language Models (LLMs) by assigning fine-grained scores to intermediate reasoning steps within a solution trajectory. However, existing PRMs predominantly adopt a unidirectional left-to-right (L2R) evaluation paradigm, which limits their ability to leverage global context, making it challenging to verify the consistency of earlier steps based on later ones. In light of these challenges, we propose a novel bidirectional evaluation paradigm, named Bidirectional Process Reward Model (BiPRM). BiPRM seamlessly incorporates a parallel right-to-left (R2L) evaluation stream alongside the conventional L2R flow, enabling later reasoning steps to help assess earlier ones in real time. Notably, the built-in R2L evaluation is implemented solely through prompt modifications that reverse the original reasoning trajectory, without any additional parameters or inference latency introduced. This ensures BiPRM remains both efficient and broadly compatible with existing PRM studies. We conduct extensive experiments on two mathematical reasoning benchmarks using samples generated by three different policy models. Our method, BiPRM, is evaluated across three backbones and three distinct PRM objectives. Across all settings, BiPRM consistently outperforms unidirectional baselines, achieving up to a 31.9% improvement in stepwise reward evaluation. Generally, our results highlight BiPRM's effectiveness, robustness, and general applicability, offering a promising new direction for process-based reward modeling.
- Abstract(参考訳): Process Reward Models (PRMs) は、大規模言語モデル(LLMs)の推論品質を高めるための、ソリューション軌道内の中間的推論ステップに微粒なスコアを割り当てる、有望なアプローチとして登場した。
しかし、既存のPRMは、大半が一方向左から右へ(L2R)評価パラダイムを採用しており、グローバルコンテキストを活用する能力を制限しているため、後のステップに基づいて以前のステップの一貫性を検証することは困難である。
これらの課題を踏まえ, 双方向プロセス・リワード・モデル (BiPRM) と呼ばれる新しい双方向評価パラダイムを提案する。
BiPRMは、従来のL2Rフローと並行して、並列右から左へ(R2L)評価ストリームをシームレスに組み込む。
特に、内蔵されたR2L評価は、パラメータや推論遅延を伴わずに、元の推論軌道を逆転させる即時修正によってのみ実装される。
これにより、BiPRMは既存のPRM研究と効率的かつ幅広い互換性が保たれる。
3つの異なるポリシーモデルから生成されたサンプルを用いて、2つの数学的推論ベンチマークで広範な実験を行う。
提案手法は3つの背骨および3つの異なるPRM目標に対して評価される。
すべての設定において、BiPRMは一方向ベースラインを一貫して上回り、ステップワイド報酬評価において31.9%の改善を達成している。
以上の結果から,BiPRMの有効性,ロバスト性,汎用性が注目され,プロセスベース報酬モデリングの新たな方向性が期待できる。
関連論文リスト
- SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [70.01883340129204]
シングルパス。
リファレンスガイドによる評価(SPARE)
参照ソリューションにおける各ソリューションステップを1つまたは複数のステップにアライメントすることで、単一のパス毎のアノテーションを可能にする新しい構造化フレームワーク。
SPAREは2.6倍の効率を実現し、実行時の38%しか必要としない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Beyond the First Error: Process Reward Models for Reflective Mathematical Reasoning [49.21525229904197]
本研究では,長いCoT推論プロセスのスコアリングに特化して設計されたPRMのための新しいデータアノテーション手法を提案する。
本稿では, 誤り伝播と誤認識の概念を導入し, PRMの効果的な自己訂正行動と誤ったステップに基づく推論の両方を識別する能力を高めた。
我々のPRMは,探索誘導,BoN,F1スコアなど,様々な指標で優れた性能を実現している。
論文 参考訳(メタデータ) (2025-05-20T14:12:05Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Better Process Supervision with Bi-directional Rewarding Signals [41.929678717412266]
本稿では,過去の手順の正しさを評価するプロセス監視モデルであるBiRMを紹介し,今後の成功の可能性をモデル化する。
数学的推論のタスクについて広範な実験を行い、BiRMがLLM推論のステップをより正確に評価できることを実証した。
検索ベースの戦略では、より包括的なガイダンスを提供し、それぞれMATH-500でORMを5.0%、PRMを3.8%上回る。
論文 参考訳(メタデータ) (2025-03-06T17:03:17Z) - ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。
ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。
マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文 参考訳(メタデータ) (2025-01-14T05:56:26Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - Entropy-Regularized Process Reward Model [30.279394036823092]
大規模言語モデル(LLM)は、複雑な多段階推論を行う上で有望であるが、数学的推論に苦慮し続けている。
KL規則化マルコフ決定プロセス(MDP)を統合したエントロピー規則化プロセス報酬モデル(ER-PRM)を提案する。
MATHとGSM8Kベンチマークの実証実験により、ER-PRMは既存のプロセス報酬モデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-12-15T01:09:23Z) - Learning to Refine with Fine-Grained Natural Language Feedback [81.70313509881315]
我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。
提案手法の鍵となる特性は,ステップ2の批判モデルがエラーに対してきめ細かいフィードバックを与えることができる点である。
文書基盤要約の事実整合性を改善する作業において,異なる機能モデルがDCRによる精細化の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:15:01Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。