論文の概要: Signal Reshaping for GRPO in Weak-Feedback Agentic Code Repair
- arxiv url: http://arxiv.org/abs/2605.07276v1
- Date: Fri, 08 May 2026 05:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.828622
- Title: Signal Reshaping for GRPO in Weak-Feedback Agentic Code Repair
- Title(参考訳): 弱フィードバックエージェントコード修復におけるGRPOの信号再構成
- Authors: Jia Li, Yuxin Su, Ting Peng, Hailiang Huang, Yuetang Deng, Michael R. Lyu,
- Abstract要約: このようなフィードバックの下で,標準GRPOの信号再構成について検討する。
完全な信号整形GRPOは、厳密なコンパイルとシーケンスの精度を改善する。
- 参考スコア(独自算出の注目度): 36.31472731207028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-agent RL often receives weak feedback: rollout-time signals are reliable and executable, but capture only necessary or surface conditions for task success rather than the target semantic predicate. Using agentic compile-fix as the setting, we study signal reshaping for standard GRPO under such feedback. Our central claim is that GRPO's within-group comparison is meaningful only after three kinds of signals are reshaped: outcome rewards recover semantic ranking, process signals localize intra-trajectory credit, and rollouts from the same prompt remain execution-comparable. We operationalize these conditions with a minimal signal-reshaping construction that leaves GRPO's group-normalized advantage construction unchanged: compile-and-semantic layered rewards reshape trajectory ranking, step-level process scores outside group reward normalization reshape within-trajectory update strength, and failure-cause-aware rollout governance reshapes within-group comparability. Experiments show a clear end-to-end gain: full signal-reshaped GRPO improves strict compile-and-semantic accuracy from the base model's zero-shot $0.385$ to $0.535$. Controlled comparisons further explain the source of this gain: binary rewards remove the compile-only middle tier and degrade trajectory control; on top of layered rewards, process-score weighting further improves accuracy from $0.48$ to $0.53$ and reduces average evaluation steps from $23.50$ to $17.02$. As a boundary comparison, privileged-prompt token-level distillation mainly optimizes local distributional alignment; in long tool-use trajectories, this signal is diluted by non-critical tokens and cannot replace outcome semantics, process credit, or within-group comparability.
- Abstract(参考訳): ロールアウト時の信号は信頼性が高く実行可能であるが、目的のセマンティック述語ではなく、タスク成功に必要な条件や表面条件のみをキャプチャする。
エージェント・コンパイル・フィックスを設定として,標準GRPOの信号再構成をそのようなフィードバックの下で検討する。
我々の主張では、GRPOの内集団比較は、結果報酬がセマンティックランキングを回復し、プロセス信号が軌道内クレジットをローカライズし、同じプロンプトからのロールアウトが実行互換のままである3種類の信号が再生成された後にのみ意味を持つ。
GRPOの群正規化による優位構造は変化しない: コンパイルとシーマンティックな層状報酬は軌道ランクを、ステップレベルのプロセススコアはグループ報酬正規化の外は軌道更新強度を、フェールファインのロールアウトガバナンスはグループコンパラビリティを再形成する。
完全な信号整形GRPOは、ベースモデルの0ショット$0.385$から0.535$まで、厳密なコンパイルとシーケンスの精度を改善する。
バイナリ報酬はコンパイルのみの中間層を取り除き、軌道制御を分解する。レイヤ化された報酬に加えて、プロセススコア重み付けは0.48$から0.53$に精度を向上し、平均評価ステップを23.50$から17.02$に下げる。
境界比較として、特権プロンプトのトークンレベルの蒸留は、主に局所的な分布アライメントを最適化するが、長いツールの使用軌道では、このシグナルは非クリティカルなトークンによって希釈され、結果のセマンティクス、プロセスクレジット、またはグループ内のコンパラビリティを置き換えることはできない。
関連論文リスト
- A$^2$TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping [16.192937389387982]
エージェント型大規模言語モデル(LLM)の強化学習は、スパースな軌道レベルの結果報酬に依存している。
A$2$TGPO (Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping) を提案する。
論文 参考訳(メタデータ) (2026-05-07T13:09:31Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO [70.38763678943648]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデルにおける推論とコード生成を改善するための中心的なパラダイムとなっている。
標準的なGRPOはシーケンスアグリゲーションを使用し、最近の研究はトークンアグリゲーションをより良い代替手段として提唱している。
トークンアグリゲーションは符号長結合を導入し、シーケンスアグリゲーションは暗黙的にダウンウェイトを延長する。
論文 参考訳(メタデータ) (2026-04-14T09:48:46Z) - Execution-Grounded Credit Assignment for GRPO in Code Generation [0.0]
Execution-Grounded Credit Assignment (EGCA)は、GRPOアップデートを実行トレースを使用してローカライズする。
アルゴリズム上の制約を満たすが、フェールテストを行うプログラムでは、EGCAは候補と標準参照ソリューションを実行する。
EGCAは、批判、補助的損失、学習的検証を必要としないドロップイン修正である。
論文 参考訳(メタデータ) (2026-03-17T06:22:44Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - Single-stream Policy Optimization [21.214853668053234]
SPO(Single-stream Policy Optimization)を導入する。
SPOはグループ単位のベースラインを永続的なKL適応値トラッカーに置き換え、バッチ全体にわたってメリットを標準化する。
グループフリーであるため、SPOはより高いスループットと、長い水平またはツール統合された設定で効果的にスケールすることができる。
論文 参考訳(メタデータ) (2025-09-16T16:39:11Z) - BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models [57.304411396229035]
BranchGRPOは、ロールアウトプロセスを分岐木に再構成する手法である。
HPDv2.1イメージアライメントでは、BranchGRPOはDanceGRPOよりも最大でtextbf16%のアライメントスコアを改善する。
ハイブリッド版であるBranchGRPO-MixはDanceGRPOよりも4.7倍の速度でトレーニングを加速する。
論文 参考訳(メタデータ) (2025-09-07T12:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。