論文の概要: Process Reward Agents for Steering Knowledge-Intensive Reasoning
- arxiv url: http://arxiv.org/abs/2604.09482v1
- Date: Fri, 10 Apr 2026 16:45:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.967906
- Title: Process Reward Agents for Steering Knowledge-Intensive Reasoning
- Title(参考訳): 知識集中推論のためのプロセスリワードエージェント
- Authors: Jiwoong Sohn, Tomasz Sternal, Kenneth Styppa, Torsten Hoefler, Michael Moor,
- Abstract要約: 本稿では,ドメインベースでオンライン,ステップワイドな報酬を凍結ポリシに提供するテストタイム手法であるProcess Reward Agents(PRA)を紹介する。
PRAは強いベースラインを一貫して上回り、Qwen3-4BでMedQAで80.8%の精度を達成した。
PRAは0.5Bから8Bまでの凍結ポリシーモデルを一般化し、ポリシーモデルを更新することなく、その精度を最大25.7%向上させる。
- 参考スコア(独自算出の注目度): 18.184546182516225
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reasoning in knowledge-intensive domains remains challenging as intermediate steps are often not locally verifiable: unlike math or code, evaluating step correctness may require synthesizing clues across large external knowledge sources. As a result, subtle errors can propagate through reasoning traces, potentially never to be detected. Prior work has proposed process reward models (PRMs), including retrieval-augmented variants, but these methods operate post hoc, scoring completed trajectories, which prevents their integration into dynamic inference procedures. Here, we introduce Process Reward Agents (PRA), a test-time method for providing domain-grounded, online, step-wise rewards to a frozen policy. In contrast to prior retrieval-augmented PRMs, PRA enables search-based decoding to rank and prune candidate trajectories at every generation step. Experiments on multiple medical reasoning benchmarks demonstrate that PRA consistently outperforms strong baselines, achieving 80.8% accuracy on MedQA with Qwen3-4B, a new state of the art at the 4B scale. Importantly, PRA generalizes to unseen frozen policy models ranging from 0.5B to 8B parameters, improving their accuracy by up to 25.7% without any policy model updates. More broadly, PRA suggests a paradigm in which frozen reasoners are decoupled from domain-specific reward modules, allowing the deployment of new backbones in complex domains without retraining.
- Abstract(参考訳): 数学やコードとは異なり、ステップの正しさを評価するには、大きな外部の知識ソースにまたがってヒントを合成する必要がある。
結果として、微妙なエラーがトレースの推論を通じて伝播し、検出されない可能性がある。
プロセス報酬モデル (PRMs) は、検索に拡張された変種を含むが、これらの手法はポストホックで動作し、完了した軌道をスコアリングし、動的推論手順への統合を妨げている。
本稿では,ドメインベースでオンライン,ステップワイドな報酬を凍結ポリシに提供するテストタイム手法であるProcess Reward Agents(PRA)を紹介する。
事前の検索拡張PRMとは対照的に、PRAは検索ベースのデコードにより、各生成ステップにおける候補軌道のランク付けとプーン化を可能にしている。
複数の医学推論ベンチマークの実験では、PRAは強いベースラインを一貫して上回り、4Bスケールの新しい最先端技術であるQwen3-4BでMedQAの80.8%の精度を達成した。
重要なことに、PRAは0.5Bから8Bまでの凍結ポリシーモデルを一般化し、ポリシーモデルを更新することなく、その精度を最大25.7%向上させる。
より広範に、PRAは凍結推論がドメイン固有の報酬モジュールから切り離され、複雑なドメインに新しいバックボーンをリトレーニングせずにデプロイできるパラダイムを提案する。
関連論文リスト
- ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。
本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文 参考訳(メタデータ) (2026-01-29T16:04:59Z) - Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search [72.87861928940929]
バウンダリ・アウェア・ポリシー・オプティマイゼーション(BAPO)は、信頼性の高い境界認識を精度を損なうことなく育成する新しいRLフレームワークである。
BAPOは2つの重要な要素を導入する: (i) グループベースの境界対応報酬(i) 推論が限界に達したときのみIDK応答を促進させる) 適応報酬変調器(ii) 早期探索中にこの報酬を戦略的に停止させ、モデルがIDKをショートカットとして利用するのを防ぐ。
論文 参考訳(メタデータ) (2026-01-16T07:06:58Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training [26.589591658693962]
RLVRのアウトカム・リワード・モデル(ORM)は粗い粒度であり、正しい答えの中で欠陥のある推論を区別できない。
Process Reward Models (PRM) は、中間ステップの詳細なガイダンスを提供する。
PRocess cOnsistency Filter (PROF) を導入し, ノイズの多い, きめ細かいプロセス報酬と, 粗い結果報酬とを調和させる。
論文 参考訳(メタデータ) (2025-09-03T15:28:51Z) - S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models [2.9925837108958864]
テスト時間スケーリングは、大規模な言語モデルコミュニティに活発な研究対象として現れます。
最近の研究では、推論モデル(Qwen3でさえも過度の思考冗長性を示すことが示されている。
本稿では,新たな強化学習パラダイムであるS-GRPO(Serial-Group Decaying-Reward Policy Optimization)を紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:50:44Z) - ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。
ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。
マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文 参考訳(メタデータ) (2025-01-14T05:56:26Z) - Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning [90.23629291067763]
大規模言語モデルにおける推論を改善するための有望なアプローチは、プロセス報酬モデル(PRM)を使用することである。
PRMは多段階の推論トレースの各ステップでフィードバックを提供し、結果報酬モデル(ORM)よりも信用割当を改善する可能性がある。
PRMに対して探索を行ったり、強化学習(RL)の報酬として使ったりすることで、基本方針を改善するために、「プロセス報酬をどう設計すべきか?」と質問する。
理論的には,良質なプロデューサの集合を特徴付けるとともに,このようなプロデューサからのプロセス報酬の最適化が,テスト時間探索やオンラインRLの探索を改善することを示す。
論文 参考訳(メタデータ) (2024-10-10T17:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。