論文の概要: Verifiable Process Rewards for Agentic Reasoning
- arxiv url: http://arxiv.org/abs/2605.10325v1
- Date: Mon, 11 May 2026 10:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.729307
- Title: Verifiable Process Rewards for Agentic Reasoning
- Title(参考訳): エージェント推論のための検証プロセスリワード
- Authors: Huining Yuan, Zelai Xu, Huaijie Wang, Xiangmin Yi, Jiaxuan Gao, Xiao-Ping Zhang, Yu Wang, Chao Yu, Yi Wu,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の推論能力を向上させる。
既存のアプローチのほとんどは、少ない結果レベルのフィードバックに依存しています。
本稿では,これらのオーラクルを強化学習のための高密度なターンレベルの監視に変換するフレームワークであるVerifiable Process Rewards (VPR)を提案する。
- 参考スコア(独自算出の注目度): 21.195739597726142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from verifiable rewards (RLVR) has improved the reasoning abilities of large language models (LLMs), but most existing approaches rely on sparse outcome-level feedback. This sparsity creates a credit assignment challenge in long-horizon agentic reasoning: a trajectory may fail despite containing many correct intermediate decisions, or succeed despite containing flawed ones. In this work, we study a class of densely-verifiable agentic reasoning problems, where intermediate actions can be objectively checked by symbolic or algorithmic oracles. We propose Verifiable Process Rewards (VPR), a framework that converts such oracles into dense turn-level supervision for reinforcement learning, and instantiate it in three representative settings: search-based verification for dynamic deduction, constraint-based verification for logical reasoning, and posterior-based verification for probabilistic inference. We further provide a theoretical analysis showing that dense verifier-grounded rewards can improve long-horizon credit assignment by providing more localized learning signals, with the benefit depending on the reliability of the verifier. Empirically, VPR outperforms outcome-level reward and rollout-based process reward baselines across controlled environments, and more importantly, transfers to both general and agentic reasoning benchmarks, suggesting that verifiable process supervision can foster general reasoning skills applicable beyond the training environments. Our results indicate that VPR is a promising approach for enhancing LLM agents whenever reliable intermediate verification is available, while also highlighting its dependence on oracle quality and the open challenge of extending VPR to less structured, open-ended environments.
- Abstract(参考訳): 検証可能な報酬(RLVR)からの強化学習は、大きな言語モデル(LLM)の推論能力を改善したが、既存のアプローチのほとんどは、少ない結果レベルのフィードバックに依存している。
軌道は、多くの正しい中間決定を含むにもかかわらず失敗するかもしれないし、欠陥のあるものを含むにもかかわらず成功するかもしれない。
そこで本研究では,中間動作を記号的あるいはアルゴリズム的オラクルで客観的にチェックできる,密に検証可能なエージェント推論問題のクラスについて検討する。
本稿では,これらのオーラクルを強化学習のための高密度なターンレベルの監視に変換し,動的推論のための探索に基づく検証,論理的推論のための制約に基づく検証,確率的推論のための後方ベース検証という3つの代表的な設定でインスタンス化する,検証可能なプロセス・リワード(VPR)を提案する。
さらに、より局所的な学習信号を提供することで、より密集した検証者による報酬が長期クレジットの割り当てを改善することができることを示す理論的解析を行い、検証者の信頼性に応じて利点を享受する。
経験的に、VPRは結果レベルの報酬とロールアウトベースのプロセス報酬ベースラインよりも優れており、さらに重要なのは、一般的な推論ベンチマークとエージェント推論ベンチマークの両方への移行であり、検証可能なプロセス監視は、トレーニング環境を超えて適用可能な一般的な推論スキルを育むことができることを示唆している。
以上の結果から,VPRは信頼性の高い中間検証が利用可能であればいつでもLLMエージェントを増強するための有望なアプローチであり,また,そのオラクル品質への依存と,VPRをより構造化されていないオープンエンド環境に拡張するというオープンな課題を強調した。
関連論文リスト
- Less Approximates More: Harmonizing Performance and Confidence Faithfulness via Hybrid Post-Training for High-Stakes Tasks [52.81286869496811]
大規模な言語モデルは、自信を持って不正確な推論が現実世界の害を引き起こすような、ハイテイクなタスクにますますデプロイされている。
内的フィードバックからの教師なし強化学習と推論・トラス誘導型推論蒸留を併用して協調的に最適化することを提案する。
PRG方式のメトリクスを用いてRDとRLIFを適応的に重み付けするハイブリッドポストトレーニングフレームワークであるHyTuningを紹介する。
論文 参考訳(メタデータ) (2026-04-09T16:50:11Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Beyond Outcome Verification: Verifiable Process Reward Models for Structured Reasoning [14.632557283678898]
検証可能なプロセスリワードモデル(VPRM)は、中間推論ステップを決定論的、ルールベースの検証によってチェックする強化学習フレームワークである。
医療エビデンス合成のためのリスク・オブ・バイアス評価にVPRMを適用した。
その結果、VPRMは最先端モデルよりも20%高いF1、検証可能な結果報酬より6.5%高いF1を達成することがわかった。
論文 参考訳(メタデータ) (2026-01-23T23:22:20Z) - Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning [52.144281362465996]
本稿では,強化学習を長期シナリオに適用するためのEAPO(Evidence-Augmented Policy Optimization)を提案する。
最初にEvidence-Augmented Reasoningパラダイムを確立し、Tree-Structued Evidence Smplingを介して検証する。
次に、報酬モデルがグループ相対エビデンス・リワードを計算する特殊なRLアルゴリズムを導入する。
トレーニングを通して正確な監視を維持するため、適応的リワード・ポリティ共進化機構をさらに取り入れる。
論文 参考訳(メタデータ) (2026-01-15T11:40:57Z) - ICPO: Intrinsic Confidence-Driven Group Relative Preference Optimization for Efficient Reinforcement Learning [17.98065634130798]
固有信頼駆動型グループ相対選好最適化法(ICPO)を提案する。
ICPOは、複数の応答の相対生成確率を同一の入力プロンプトで比較することにより、各応答に対する優先優位スコアを算出する。
優先的優位性スコアは、粗大な報酬や報奨ノイズの問題を緩和するだけでなく、過度に信頼された誤りを効果的に抑制することを発見した。
論文 参考訳(メタデータ) (2025-11-26T03:10:15Z) - From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - The Alignment Auditor: A Bayesian Framework for Verifying and Refining LLM Objectives [8.030821324147515]
逆強化学習は、行動から報酬関数を推測することができる。
既存のアプローチは、単一で自信過剰な報酬推定を生成するか、タスクの基本的な曖昧さに対処できないかのいずれかです。
本稿では,簡単な推定タスクから総合的な検証プロセスへ報酬推論を再構成する,原則的監査フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-07T16:25:14Z) - Veri-R1: Toward Precise and Faithful Claim Verification via Online Reinforcement Learning [53.05161493434908]
大規模言語モデル(LLM)によるクレーム検証は、その強力な推論能力と透過的な検証プロセスのため、近年注目を集めている。
我々は、LLMが検索エンジンと対話し、その計画、検索、推論行動を明確に形作る報酬信号を受け取ることができるオンライン強化学習フレームワークであるVeri-R1を紹介した。
実験の結果、Veri-R1は最大30%の精度で関節の精度を向上し、エビデンススコアを2倍にし、より大きなモデルを上回ることが示されている。
論文 参考訳(メタデータ) (2025-10-02T11:49:48Z) - Hybrid Reward Normalization for Process-supervised Non-verifiable Agentic Tasks [12.31210445905605]
ステップレベルの評価と結果の検証を統一するRLアプローチである原則プロセス・リワード(PPR)を導入する。
PPRは幅広いベンチマークで最先端のパフォーマンスを実現し、その顕著な堅牢性と一般化を実証している。
論文 参考訳(メタデータ) (2025-09-29T23:44:55Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。