論文の概要: EvolveCoder: Evolving Test Cases via Adversarial Verification for Code Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.12698v1
- Date: Fri, 13 Mar 2026 06:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.941311
- Title: EvolveCoder: Evolving Test Cases via Adversarial Verification for Code Reinforcement Learning
- Title(参考訳): EvolveCoder: コード強化学習のための逆検証によるテストケースの進化
- Authors: Chi Ruan, Dongfu Jiang, Huaye Zeng, Ping Nie, Wenhu Chen,
- Abstract要約: 検証可能な報酬による強化学習(RLVR)は、大規模言語モデルにおけるコード生成を改善するための有望なアプローチである。
提案手法は, 候補解の実行挙動に基づいて, 反復的にテストケースを改良する, 解条件付き, 逆検証フレームワークを提案する。
EvolveCoder-22kは、大規模符号化強化学習データセットで、複数ラウンドの対角テストケースの進化を通して構築される。
- 参考スコア(独自算出の注目度): 46.87136299625531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) is a promising approach for improving code generation in large language models, but its effectiveness is limited by weak and static verification signals in existing coding RL datasets. In this paper, we propose a solution-conditioned and adversarial verification framework that iteratively refines test cases based on the execution behaviors of candidate solutions, with the goal of increasing difficulty, improving discriminative power, and reducing redundancy. Based on this framework, we introduce EvolveCoder-22k, a large-scale coding reinforcement learning dataset constructed through multiple rounds of adversarial test case evolution. Empirical analysis shows that iterative refinement substantially strengthens verification, with pass@1 decreasing from 43.80 to 31.22. Reinforcement learning on EvolveCoder-22k yields stable optimization and consistent performance gains, improving Qwen3-4B by an average of 4.2 points across four downstream benchmarks and outperforming strong 4B-scale baselines. Our results highlight the importance of adversarial, solution-conditioned verification for effective and scalable reinforcement learning in code generation.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルにおけるコード生成を改善するための有望なアプローチであるが、その効果は、既存のコーディングRLデータセットの弱い静的な検証信号によって制限されている。
本稿では, 課題の拡大, 識別力の向上, 冗長性の低減を目標として, 候補解の実行行動に基づいて, テストケースを反復的に洗練する手法を提案する。
このフレームワークをベースとしたEvolveCoder-22kは,複数ラウンドの対角テストケースの進化を通じて構築された大規模符号化強化学習データセットである。
経験的分析によると、反復精製は検証を大幅に強化し、pass@1は43.80から31.22に減少した。
EvolveCoder-22kの強化学習は安定した最適化と一貫したパフォーマンス向上をもたらし、Qwen3-4Bを4つのダウンストリームベンチマークで平均4.2ポイント改善し、強力な4Bスケールのベースラインを上回っている。
本結果は,コード生成における効率よく,スケーラブルな強化学習のための,対角的,解条件付き検証の重要性を強調した。
関連論文リスト
- ContextRL: Enhancing MLLM's Knowledge Discovery Efficiency with Context-Augmented RL [64.77036363086519]
本稿では,これらのボトルネックを克服するためにコンテキスト拡張を利用する新しいフレームワークContextRLを提案する。
提案手法は,プロセス検証のきめ細やかな検証によって偽陽性を除去し,完全な参照ソリューションをコンテキストとして提供する。
また,前述した全負の集団からの正解を「回収」する方針を導いて,報酬モデルが失敗に対する誤報を生成するマルチターンサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2026-02-26T04:55:57Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Aletheia: What Makes RLVR For Code Verifiers Tick? [51.371034079170435]
Reinforcement Learning from Verifiable Rewards (RLVR)を通じてトレーニングされた検証は、Large Language Model (LLM)ポストトレーニングパイプラインの顕著なフィクスチャである。
コード検証は、実行フィードバックを得るのが難しいシナリオにおいて、モデル出力を判断する上で価値があります。
本稿では,RLVRを用いた検証学習手法の構成要素を検証し,その有効性を検証した。
論文 参考訳(メタデータ) (2026-01-17T22:30:45Z) - LLM-based Vulnerable Code Augmentation: Generate or Refactor? [0.6588840794922407]
脆弱性のあるコードベースは、しばしば深刻な不均衡に悩まされ、ディープラーニングベースの脆弱性分類器の有効性が制限される。
我々は、表現不足のCWEの不足を軽減し、これを緩和する方法を検討する。
私たちのアプローチは、単純なプロセスと合理的な品質で脆弱なコードベースを充実させるのに、本当に効果的です。
論文 参考訳(メタデータ) (2025-12-09T11:15:13Z) - CodeRL+: Improving Code Generation via Reinforcement with Execution Semantics Alignment [98.87395842351627]
大きな言語モデル(LLM)は、巨大なコードコーパスから学習することで、コード生成において優れています。
テキストパターンのトレーニングと機能的正しさの目標の間には、基本的な意味的ギャップが残っている。
我々は、コード生成のためのRLVRトレーニングパイプラインに実行セマンティクスアライメントを統合する新しいアプローチであるCodeRL+を提案する。
論文 参考訳(メタデータ) (2025-10-21T09:48:06Z) - ReVeal: Self-Evolving Code Agents via Reliable Self-Verification [11.875519107421312]
自己検証とツールベースの評価を通じてコード生成を進化させる強化学習フレームワークであるReVealを紹介する。
推論において、この強化された自己検証により、3つしかトレーニングされていないLiveCodeBenchでは、自己構築されたテストとツールフィードバックを使用して、20ターン以上のコードを継続的に進化させることができる。
これらの調査結果は、RLトレーニングとテストタイムスケーリングのためのスケーラブルなパラダイムとしてのReVealの約束を強調し、より堅牢で自律的なAIエージェントへの道を開いた。
論文 参考訳(メタデータ) (2025-06-13T03:41:04Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。