論文の概要: MURPHY: Multi-Turn GRPO for Self Correcting Code Generation
- arxiv url: http://arxiv.org/abs/2511.07833v1
- Date: Wed, 12 Nov 2025 01:23:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.500521
- Title: MURPHY: Multi-Turn GRPO for Self Correcting Code Generation
- Title(参考訳): MURPHY: 自己修正コード生成のためのマルチTurn GRPO
- Authors: Chanakya Ekbote, Vijay Lingam, Behrooz Omidvar-Tehrani, Jun Huan, Sujay Sanghavi, Anoop Deoras, Stefano Soatto,
- Abstract要約: Murphyは、トレーニング中に反復的な自己補正を導入することでGRPOを拡張するマルチターン反射最適化フレームワークである。
Murphy は GRPO に対して 8% の相対的な利得を達成し,同様の計算予算で性能を継続的に向上することを示す。
- 参考スコア(独自算出の注目度): 55.66642560374686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a powerful framework for enhancing the reasoning capabilities of large language models (LLMs). However, existing approaches such as Group Relative Policy Optimization (GRPO) and its variants, while effective on reasoning benchmarks, struggle with agentic tasks that require iterative decision-making. We introduce Murphy, a multi-turn reflective optimization framework that extends GRPO by incorporating iterative self-correction during training. By leveraging both quantitative and qualitative execution feedback, Murphy enables models to progressively refine their reasoning across multiple turns. Evaluations on code generation benchmarks with model families such as Qwen and OLMo show that Murphy consistently improves performance, achieving up to a 8% relative gain in pass@1 over GRPO, on similar compute budgets.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)の推論能力を高める強力なフレームワークとして登場した。
しかし、グループ相対政策最適化(GRPO)やその変種のような既存のアプローチは、推論ベンチマークでは有効であるが、反復的な意思決定を必要とするエージェント的なタスクと競合する。
トレーニング中に反復自己補正を組み込むことでGRPOを拡張するマルチターン反射最適化フレームワークであるMurphyを紹介する。
量的および質的な実行フィードバックの両方を活用することで、Murphyはモデルが複数のターンにまたがる推論を段階的に洗練することを可能にする。
QwenやOLMoといったモデルファミリによるコード生成ベンチマークの評価は、Murphyが一貫してパフォーマンスを改善し、GRPOよりも8%の相対的なアップを達成していることを示している。
関連論文リスト
- MO-GRPO: Mitigating Reward Hacking of Group Relative Policy Optimization on Multi-Objective Problems [18.92779479033295]
グループ相対政策最適化は、正確な報酬モデルが利用できる場合に有効なアルゴリズムであることが示されている。
報奨関数を値のばらつきに応じて自動的に重み付けする単純な正規化法により,GRPOの拡張であるMO-GRPOを提案する。
また、MO-GRPOは、全ての報酬関数が優先順序を保ちながら損失関数に等しく寄与することを保証していることを示す。
論文 参考訳(メタデータ) (2025-09-26T08:32:22Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文 参考訳(メタデータ) (2025-05-25T06:41:28Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z) - Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。
直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。
安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T05:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。