論文の概要: PAPO: Stabilizing Rubric Integration Training via Decoupled Advantage Normalization
- arxiv url: http://arxiv.org/abs/2603.26535v3
- Date: Fri, 03 Apr 2026 07:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 12:42:34.071913
- Title: PAPO: Stabilizing Rubric Integration Training via Decoupled Advantage Normalization
- Title(参考訳): PAPO:非結合アドバンテージ正規化によるルーブリック統合トレーニングの安定化
- Authors: Zelin Tan, Zhouliang Yu, Bohan Lin, Zijie Geng, Hejia Geng, Yudong Zhang, Mulei Zhang, Yang Chen, Shuyue Hu, Zhenfei Yin, Chen Zhang, Lei Bai,
- Abstract要約: 本稿では,既存の報酬設計の2つの制約に対処するプロセスアウェア・ポリシー・オプティマイズ(PAPO)を提案する。
PAPOはプロセスレベルの評価をグループ相対政策最適化(GRPO)に統合する。
複数のモデルスケールと6つのベンチマークの実験は、PAPOがORMを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 31.935482701047544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Process-Aware Policy Optimization (PAPO), a method that integrates process-level evaluation into Group Relative Policy Optimization (GRPO) through decoupled advantage normalization, to address two limitations of existing reward designs. Outcome reward models (ORM) evaluate only final-answer correctness, treating all correct responses identically regardless of reasoning quality, and gradually lose the advantage signal as groups become uniformly correct. Process reward models (PRM) offer richer supervision, but directly using PRM scores causes reward hacking, where models exploit verbosity to inflate scores while accuracy collapses. PAPO resolves both by composing the advantage from an outcome component Aout, derived from ORM and normalized over all responses, and a process component Aproc, derived from a rubric-based PRM and normalized exclusively among correct responses. This decoupled design ensures that Aout anchors training on correctness while Aproc differentiates reasoning quality without distorting the outcome signal. Experiments across multiple model scales and six benchmarks demonstrate that PAPO consistently outperforms ORM, reaching 51.3% vs.\ 46.3% on OlympiadBench while continuing to improve as ORM plateaus and declines.
- Abstract(参考訳): 本稿では,プロセスレベルの評価をグループ相対政策最適化(GRPO)に統合するプロセスアウェア政策最適化(PAPO)を提案する。
結果報奨モデル(ORM)は最終回答の正しさのみを評価し、推論の品質に関わらず全ての正解を同一に扱い、群が一様になるにつれて利得信号が徐々に失われる。
プロセス報酬モデル(PRM)はよりリッチな監視を提供するが、PRMスコアを直接使用すると報酬ハックを引き起こす。
PAPOは、ORMから派生し、すべてのレスポンスで正規化された結果コンポーネントAoutと、ルーリックベースのPRMから派生し、正しいレスポンスでのみ正規化されたプロセスコンポーネントAprocの両方から利点を構成することで解決する。
この分離された設計により、Aoutは正確性に関するトレーニングをアンカーし、Aprocは結果信号を歪ませることなく推論品質を区別する。
複数のモデルスケールと6つのベンチマークによる実験によると、PAPOはORMを一貫して上回り、51.3%に到達した。
OlympiadBench は 46.3% となり、ORM の台地と衰退と共に改善を続けている。
関連論文リスト
- When Right Meets Wrong: Bilateral Context Conditioning with Reward-Confidence Correction for GRPO [18.988527161000203]
グループ相対政策最適化(GRPO)は、推論モデルを訓練するための効果的な方法として登場した。
本稿では,GRPOの目的が正解率と正解率とのマージンを暗黙的に最大化することを示す。
本稿では,モデルが相互参照を成功させる機構であるバイラテラルコンテキストコンディショニング(BICC)を提案する。
論文 参考訳(メタデータ) (2026-03-13T16:25:02Z) - Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities [10.235183326885794]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLMs)における推論の強化に欠かせないパラダイムとして登場した。
我々は、この問題をサンプリング確率力学の観点から分析し、標準目的が高次様相の経路を不均等に強化することを特定する。
提案手法は,すべての応答に対する信頼度を平衡化するための新しいアドバンテージ再重み付け機構 (ARM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:06:55Z) - Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - PRPO: Aligning Process Reward with Outcome Reward in Policy Optimization [15.965340493880701]
我々は、結果の信頼性とプロセスレベルのガイダンスを、批判のないフレームワークで組み合わせたプロセス相対政策最適化(PRPO)を導入する。
PRPOは意味的手がかりに基づいて推論シーケンスを分割し、PRMスコアをトークンレベルの利点に正規化し、それらの分布を結果の利点と整合させる。
MATH500では、PRPOはQwen2.5-Math-1.5Bの精度を61.2%から64.4%に改善した。
論文 参考訳(メタデータ) (2026-01-12T04:04:43Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Unified Generation and Self-Verification for Vision-Language Models via Advantage Decoupled Preference Optimization [48.078132893679744]
本稿では,一つの政策の中で回答生成と自己検証を共同で学習する統合強化学習フレームワークを提案する。
ADPOは最大で+34.1%高い検証AUCと-53.5%低い推論時間を実現し、MathVista/MMMUでは+2.8%/+1.4%の精度、ReasonSegでは+1.9 cIoU、AndroidControl/GUI Odysseyでは+1.7%/+1.0%のステップ成功率を持つ。
論文 参考訳(メタデータ) (2026-01-04T11:09:33Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning [90.23629291067763]
大規模言語モデルにおける推論を改善するための有望なアプローチは、プロセス報酬モデル(PRM)を使用することである。
PRMは多段階の推論トレースの各ステップでフィードバックを提供し、結果報酬モデル(ORM)よりも信用割当を改善する可能性がある。
PRMに対して探索を行ったり、強化学習(RL)の報酬として使ったりすることで、基本方針を改善するために、「プロセス報酬をどう設計すべきか?」と質問する。
理論的には,良質なプロデューサの集合を特徴付けるとともに,このようなプロデューサからのプロセス報酬の最適化が,テスト時間探索やオンラインRLの探索を改善することを示す。
論文 参考訳(メタデータ) (2024-10-10T17:31:23Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。