論文の概要: P2S: Probabilistic Process Supervision for General-Domain Reasoning Question Answering
- arxiv url: http://arxiv.org/abs/2601.20649v1
- Date: Wed, 28 Jan 2026 14:35:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.973689
- Title: P2S: Probabilistic Process Supervision for General-Domain Reasoning Question Answering
- Title(参考訳): P2S:一般ドメイン推論質問回答のための確率的プロセススーパービジョン
- Authors: Wenlin Zhong, Chengyuan Liu, Yiquan Wu, Bovin Tan, Changlong Sun, Yi Wang, Xiaozhong Liu, Kun Kuang,
- Abstract要約: 本稿では,プロセス報酬を微粒化するための新しいフレームワークである確率的プロセススーパービジョン(P2S)を紹介する。
P2Sは、個別の報酬モデルや人間に注釈を付けた推論ステップを必要とせずに、きめ細かいプロセス報酬を提供する。
- 参考スコア(独自算出の注目度): 51.04492568024515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reinforcement learning with verifiable rewards (RLVR) has advanced LLM reasoning in structured domains like mathematics and programming, its application to general-domain reasoning tasks remains challenging due to the absence of verifiable reward signals. To this end, methods like Reinforcement Learning with Reference Probability Reward (RLPR) have emerged, leveraging the probability of generating the final answer as a reward signal. However, these outcome-focused approaches neglect crucial step-by-step supervision of the reasoning process itself. To address this gap, we introduce Probabilistic Process Supervision (P2S), a novel self-supervision framework that provides fine-grained process rewards without requiring a separate reward model or human-annotated reasoning steps. During reinforcement learning, P2S synthesizes and filters a high-quality reference reasoning chain (gold-CoT). The core of our method is to calculate a Path Faithfulness Reward (PFR) for each reasoning step, which is derived from the conditional probability of generating the gold-CoT's suffix, given the model's current reasoning prefix. Crucially, this PFR can be flexibly integrated with any outcome-based reward, directly tackling the reward sparsity problem by providing dense guidance. Extensive experiments on reading comprehension and medical Question Answering benchmarks show that P2S significantly outperforms strong baselines.
- Abstract(参考訳): 検証可能な報酬信号(RLVR)を用いた強化学習は、数学やプログラミングのような構造化ドメインでのLLM推論が進んでいるが、検証可能な報酬信号が存在しないため、一般領域推論タスクへの応用は依然として難しい。
この目的のために、Reinforcement Learning with Reference Probability Reward (RLPR) のような手法が登場し、最終回答を報奨信号として生成する可能性を活用している。
しかしながら、これらの結果に焦点を当てたアプローチは、推論プロセス自体の重要なステップバイステップの監督を無視します。
このギャップに対処するために、我々は、個別の報酬モデルや人間に注釈を付けた推論ステップを必要とせずに、きめ細かいプロセス報酬を提供する新しい自己超越フレームワークである確率的プロセススーパービジョン(P2S)を紹介します。
強化学習中、P2Sは高品質な参照推論鎖(金-CoT)を合成・濾過する。
提案手法のコアとなるのは,モデル現在の推論プレフィックスから金CoTの接尾辞を生成する条件付き確率から,各推論ステップに対するパス忠実回帰(PFR)を計算することである。
重要なことに、このPFRは、任意の結果に基づく報酬と柔軟に統合することができ、より密集したガイダンスを提供することで、報酬空間の問題に直接対処することができる。
P2Sが強い基準線を著しく上回ることを示す。
関連論文リスト
- Coupled Variational Reinforcement Learning for Language Model General Reasoning [83.82392089177841]
変分推論と強化学習を橋渡しするために,textitbCoupled bVari bReinforcement bLearning (CoVRL)を提案する。
CoVRLはベースモデルよりも12.4%向上し、最先端の検証不要なRLベースラインよりも2.3%向上した。
論文 参考訳(メタデータ) (2025-12-14T07:03:51Z) - Answer-Consistent Chain-of-thought Reinforcement Learning For Multi-modal Large Langauge Models [33.398631680508814]
本稿では,GRPOアルゴリズムを補助的整合性チェックで修正するAnswer-Consistent Reinforcement Learningを提案する。
我々は、オリジナルとポストシャッフルの両方の回答が一致して正しい場合にのみ高い報酬を与える一貫性検証報酬を設計する。
我々は、ACREを挑戦的なビデオ推論ベンチマークとマルチモーダル数学推論ベンチマークで評価し、平均2.2%と1.5%の改善を達成した。
論文 参考訳(メタデータ) (2025-10-11T08:32:52Z) - Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning [50.20267980386502]
我々は、専門家によるデモンストレーションから直接、プロセスの監督のための密集したトークンレベルの報酬モデルを学びます。
学習された推論報酬は、2つの補完的な役割を果たす: (i)訓練中の推論ポリシーを最適化するためのステップレベルのフィードバックを提供する。
論文 参考訳(メタデータ) (2025-10-02T09:55:26Z) - Hybrid Reward Normalization for Process-supervised Non-verifiable Agentic Tasks [12.31210445905605]
ステップレベルの評価と結果の検証を統一するRLアプローチである原則プロセス・リワード(PPR)を導入する。
PPRは幅広いベンチマークで最先端のパフォーマンスを実現し、その顕著な堅牢性と一般化を実証している。
論文 参考訳(メタデータ) (2025-09-29T23:44:55Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。