論文の概要: Execution-Grounded Credit Assignment for GRPO in Code Generation
- arxiv url: http://arxiv.org/abs/2603.16158v1
- Date: Tue, 17 Mar 2026 06:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.127584
- Title: Execution-Grounded Credit Assignment for GRPO in Code Generation
- Title(参考訳): コード生成におけるGRPOの実行保証
- Authors: Abhijit Kumar, Natalya Kumar, Shikhar Gupta,
- Abstract要約: Execution-Grounded Credit Assignment (EGCA)は、GRPOアップデートを実行トレースを使用してローカライズする。
アルゴリズム上の制約を満たすが、フェールテストを行うプログラムでは、EGCAは候補と標準参照ソリューションを実行する。
EGCAは、批判、補助的損失、学習的検証を必要としないドロップイン修正である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Critic-free reinforcement learning with verifiable rewards (RLVR) improves code generation by optimizing unit-test pass rates, but GRPO-style updates suffer from coarse credit assignment: a single outcome signal is spread uniformly across long programs even when failure stems from a localized semantic error. We propose Execution-Grounded Credit Assignment (EGCA), which localizes GRPO updates using execution traces. For programs that satisfy algorithmic constraints but fail tests, EGCA executes the candidate and a canonical reference solution (curated once offline; used for analysis, not supervision) under identical instrumentation, identifies the earliest semantic divergence, and assigns advantage only to the corresponding token span while masking downstream tokens. EGCA is a drop-in modification requiring no critic, auxiliary loss, or learned verifier, yielding 82.1% pass@1 on HumanEval (+3.1 over GRPO) and 68.9% on MBPP (+1.5) with 18% wall-clock overhead.
- Abstract(参考訳): 検証可能な報酬(RLVR)による批判のない強化学習は、単体テストのパスレートを最適化することでコード生成を改善するが、GRPOスタイルの更新は粗悪なクレジット割り当てに悩まされる。
実行トレースを用いてGRPO更新をローカライズするEGCA(Execution-Grounded Credit Assignment)を提案する。
アルゴリズム上の制約を満たすが、フェールテストを満たすプログラムでは、EGCAは同一のインスツルメンテーションの下で候補と標準参照ソリューション(オフラインで計算され、分析には使われない)を実行し、最初期のセマンティックな発散を識別し、下流トークンをマスキングしながら対応するトークンスパンにのみアドバンテージを割り当てる。
EGCAは批判、補助的な損失、学習された検証を必要とせず、HumanEval(+3.1 over GRPO)で82.1%のパス@1、MBPP(+1.5)で68.9%、壁面のオーバーヘッドは18%である。
関連論文リスト
- AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - MIST-RL: Mutation-based Incremental Suite Testing via Reinforcement Learning [19.054149750597933]
MIST-RL (Mutation-based Incremental Suite Testing via Reinforcement Learning) は、"スケーリング・バイ・ユーティリティ(scaling-by-utility)"に重点を移すフレームワークである。
我々は,機能的に等価なアサーションを抑えながら,新たな欠陥を発見するモデルにインセンティブを与える,動的ペナルティと組み合わされた新たなインクリメンタル突然変異報酬を導入する。
HumanEval+とMBPP+の実験は、MIST-RLが最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2026-03-02T03:22:44Z) - Learning from the Irrecoverable: Error-Localized Policy Optimization for Tool-Integrated LLM Reasoning [36.23268783033404]
長い水平ツール統合推論軌道では、早期発見不可能な誤りが成功または失敗を決定できる。
本研究は,まず発見不可能なステップをローカライズし,それをきめ細かなクレジット代入に活用するために,ELPO(Error-Localized Policy Optimization)を提案する。
私たちのコードはまもなく公開されます。
論文 参考訳(メタデータ) (2026-02-10T09:50:24Z) - iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - A Dual-Loop Agent Framework for Automated Vulnerability Reproduction [14.66023820412862]
CVE2PoCは,CVE記述から自動的に脆弱性を再現するフレームワークである。
CVE2PoCは617の現実世界の脆弱性をカバーするベンチマークで82.9%と54.3%の再現成功率を達成した。
人による評価では、生成されたPoCは可読性と再利用性において、人間によって書かれたエクスプロイトと同等のコード品質を実現する。
論文 参考訳(メタデータ) (2026-02-05T14:47:48Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。