論文の概要: VeRPO: Verifiable Dense Reward Policy Optimization for Code Generation
- arxiv url: http://arxiv.org/abs/2601.03525v2
- Date: Fri, 09 Jan 2026 03:27:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 13:49:32.382882
- Title: VeRPO: Verifiable Dense Reward Policy Optimization for Code Generation
- Title(参考訳): VeRPO: コード生成のための検証可能なDense Rewardポリシー最適化
- Authors: Longwen Wang, Xuan'er Wu, Xiaohui Hu, Yirui Liu, Yuankai Fan, Kaidong Yu, Qizhen Weng, Wei Xi, Xuelong Li,
- Abstract要約: textbfVeRPO (textbf Verifiable Dtextbfense textbfReward textbfPolicy textbfOptimization) は,テキストイトラバストと高密度報酬を合成し,検証された実行フィードバックに完全に根ざしたコード生成のための新しいRLフレームワークである。
VeRPOは結果駆動のベースラインとRMベースのベースラインを一貫して上回り、許容しない時間コスト(0.02%)とゼロのパス@1で+8.83%のゲインを達成している。
- 参考スコア(独自算出の注目度): 43.206705536310245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective reward design is a central challenge in Reinforcement Learning (RL) for code generation. Mainstream pass/fail outcome rewards enforce functional correctness via executing unit tests, but the resulting sparsity limits potential performance gains. While recent work has explored external Reward Models (RM) to generate richer, continuous rewards, the learned RMs suffer from reward misalignment and prohibitive computational cost. In this paper, we introduce \textbf{VeRPO} (\textbf{V}erifiable D\textbf{e}nse \textbf{R}eward \textbf{P}olicy \textbf{O}ptimization), a novel RL framework for code generation that synthesizes \textit{robust and dense rewards fully grounded in verifiable execution feedback}. The core idea of VeRPO is constructing dense rewards from weighted partial success: by dynamically estimating the difficulty weight of each unit test based on the execution statistics during training, a dense reward is derived from the sum of weights of the passed unit tests. To solidify the consistency between partial success and end-to-end functional correctness, VeRPO further integrates the dense signal with global execution outcomes, establishing a robust and dense reward paradigm relying solely on verifiable execution feedback. Extensive experiments across diverse benchmarks and settings demonstrate that VeRPO consistently outperforms outcome-driven and RM-based baselines, achieving up to +8.83\% gain in pass@1 with negligible time cost (< 0.02\%) and zero GPU memory overhead.
- Abstract(参考訳): 効果的な報酬設計は、コード生成のための強化学習(RL)における中心的な課題である。
メインストリームのパス/フェイル結果の報酬は、単体テストの実行によって機能的正しさを強制するが、結果として、パフォーマンスが向上する可能性を制限する。
最近の研究は、より豊かで継続的な報酬を生み出すために外部リワードモデル(RM)を探索してきたが、学習されたRMは報酬の不調整と禁忌な計算コストに悩まされている。
本稿では、コード生成のための新しいRLフレームワークである \textbf{VeRPO} (\textbf{V}erifiable D\textbf{e}nse \textbf{R}eward \textbf{P}olicy \textbf{O}ptimization)を紹介する。
トレーニング中の実行統計に基づいて各単体テストの難易度を動的に推定することにより、通過した単体テストの重みの和から重み付け報酬を導出する。
部分的な成功とエンドツーエンドの機能的正しさの整合性を確立するため、VeRPOはさらに、高密度信号をグローバルな実行結果に統合し、検証可能な実行フィードバックのみに依存する堅牢で高密度な報酬パラダイムを確立する。
さまざまなベンチマークと設定にわたる大規模な実験により、VeRPOは結果駆動とRMベースのベースラインを一貫して上回り、無視できる時間コスト(< 0.02\%)とGPUメモリオーバーヘッドゼロのpass@1で+8.83\%のゲインを達成した。
関連論文リスト
- Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR [25.56828724912418]
Reinforcement Learning with Verifiable Rewards (RLVR) の最近の進歩は、数学やプログラミングといった難解な推論課題に取り組むために、大規模言語モデル(LLM)に力を与えている。
約束にもかかわらず、RLVRパラダイムは大きな課題を生んでいる。
我々は,im$textbfP$licit $textbfA$ctor $textbfC$ritic couplingを実現する新しいRLVRフレームワークである$textbfPACS$を提案する。
論文 参考訳(メタデータ) (2025-09-02T17:22:46Z) - Nested-ReFT: Efficient Reinforcement Learning for Large Language Model Fine-Tuning via Off-Policy Rollouts [25.205293698698867]
我々はNested-ReFTを導入し、ターゲットモデルのサブセットがトレーニング中に非政治的な完了を生成する行動モデルとして機能する。
我々の理論的分析は、Nested-ReFTが制御された分散を伴う非バイアス勾配推定値を得ることを示している。
我々の経験的分析は、複数の数学推論ベンチマークとモデルサイズでトークン/秒として測定された計算効率の改善を実証している。
論文 参考訳(メタデータ) (2025-08-13T18:37:46Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards [11.149294285483782]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。
本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。
提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文 参考訳(メタデータ) (2025-05-30T14:34:57Z) - RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。
現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。
よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。