論文の概要: Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.03136v1
- Date: Tue, 03 Jun 2025 17:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.984068
- Title: Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning
- Title(参考訳): 強化学習によるLLMコーダとユニットテストの共同開発
- Authors: Yinjie Wang, Ling Yang, Ye Tian, Ke Shen, Mengdi Wang,
- Abstract要約: 本稿では,専用の報酬設計を備えた新しい強化学習フレームワークCUREを提案する。
CUREは、その相互作用の結果に基づいて、コーディングと単体テスト生成機能を共進化させる。
我々のモデルは,ベースモデルに基づく強化学習に有効な報奨モデルとして機能することを発見した。
- 参考スコア(独自算出の注目度): 33.676158965697184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose CURE, a novel reinforcement learning framework with a dedicated reward design that co-evolves coding and unit test generation capabilities based on their interaction outcomes, without any ground-truth code as supervision. This approach enables flexible and scalable training and allows the unit tester to learn directly from the coder's mistakes. Our derived ReasonFlux-Coder-7B and 14B models improve code generation accuracy by 5.3% and Best-of-N accuracy by 9.0% after optimization on Qwen2.5-Instruct models, outperforming similarly sized Qwen-Coder, DeepSeek-Coder, and Seed-Coder. They naturally extend to downstream tasks such as test-time scaling and agentic coding-achieving a 8.1% improvement over the base model. For the long-CoT model, our ReasonFlux-Coder-4B consistently outperforms Qwen3-4B while achieving 64.8% inference efficiency in unit test generation. Notably, we also find that our model can serve as an effective reward model for reinforcement learning on base models. Project: https://github.com/Gen-Verse/CURE
- Abstract(参考訳): 本稿では,プログラミングと単体テストの生成機能を協調して行う,新たな強化学習フレームワークCUREを提案する。
このアプローチはフレキシブルでスケーラブルなトレーニングを可能にし、ユニットテスト担当者がプログラマのミスから直接学ぶことを可能にする。
得られたReasonFlux-Coder-7Bおよび14Bモデルは、Qwen2.5-Instructモデルの最適化後、コード生成精度を5.3%改善し、Best-of-Nの精度を9.0%向上させ、同様の大きさのQwen-Coder、DeepSeek-Coder、Seed-Coderを上回った。
テストタイムのスケーリングやエージェントコーディングといった下流タスクに自然に拡張され、ベースモデルよりも8.1%改善されています。
長CoTモデルでは、我々のReasonFlux-Coder-4Bは、ユニットテスト生成において64.8%の推論効率を保ちながら、Qwen3-4Bを一貫して上回ります。
また,本モデルがベースモデルを用いた強化学習に有効な報奨モデルとして有効であることを示す。
プロジェクト:https://github.com/Gen-Verse/CURE
関連論文リスト
- Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - ACECODER: Acing Coder RL via Automated Test-Case Synthesis [36.740393665032954]
既存のコードデータから広範な(問い合わせ、テストケース)ペアを生成するパイプラインを設計します。
我々は,Bradley-Terry損失を伴う報酬モデルをトレーニングするために,サンプルプログラムのパスレートに基づいて選好ペアを構築した。
RLトレーニングは,80段階の最適化ステップにおいて,HumanEval+を25%以上,MBPP+を6%以上改善できることを示す。
論文 参考訳(メタデータ) (2025-02-03T18:46:04Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - Coder Reviewer Reranking for Code Generation [56.80381384717]
本稿では,コード言語モデルから多様なプログラムを抽出し,モデル確率で再ランク付けする手法として,Coder-Reviewerの再ランク付けを提案する。
実験の結果、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善をもたらすことが示された。
Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既定のハイパーパラメータとうまく機能する。
論文 参考訳(メタデータ) (2022-11-29T18:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。