論文の概要: Code-A1: Adversarial Evolving of Code LLM and Test LLM via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.15611v1
- Date: Mon, 16 Mar 2026 17:58:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.723558
- Title: Code-A1: Adversarial Evolving of Code LLM and Test LLM via Reinforcement Learning
- Title(参考訳): Code-A1: 強化学習によるコードLLMとテストLLMの対立進化
- Authors: Aozhe Wang, Yuchen Yan, Nan Zhou, Zhengxi Lu, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen,
- Abstract要約: コード生成のための強化学習は、単体テストのパスレートから検証可能な報酬に依存する。
最近のセルフプレイ手法は、1つのモデルでコードとテスト生成を統合する。
Code-A1は、人間のアノテーションによるテストでトレーニングされたコード生成のパフォーマンスマッチングまたはモデルを超えることを実現する。
- 参考スコア(独自算出の注目度): 54.95476453942411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning for code generation relies on verifiable rewards from unit test pass rates. Yet high-quality test suites are scarce, existing datasets offer limited coverage, and static rewards fail to adapt as models improve. Recent self-play methods unify code and test generation in a single model, but face a inherent dilemma: white-box access leads to self-collusion where the model produces trivial tests for easy rewards, yet black-box restriction yields generic tests that miss implementation-specific bugs. We introduce Code-A1, an adversarial co-evolution framework that jointly optimizes a Code LLM and a Test LLM with opposing objectives. The Code LLM is rewarded for passing more tests, while the Test LLM is rewarded for exposing more defects. This architectural separation eliminates self-collusion risks and safely enables white-box test generation, where the Test LLM can inspect candidate code to craft targeted adversarial tests. We further introduce a Mistake Book mechanism for experience replay and a composite reward balancing test validity with adversarial difficulty. Experiments on Qwen2.5-Coder models demonstrate that Code-A1 achieves code generation performance matching or exceeding models trained on human-annotated tests, while significantly improving test generation capability.
- Abstract(参考訳): コード生成のための強化学習は、単体テストのパスレートから検証可能な報酬に依存する。
しかし、高品質のテストスイートは乏しく、既存のデータセットはカバー範囲が限られており、モデルの改善に伴って静的報酬が適応できない。
ホワイトボックスアクセスは、モデルが簡単な報酬のために自作テストを生成するが、ブラックボックス制限は、実装固有のバグを見逃す一般的なテストをもたらす。
我々は,コードLLMとテストLLMを相互に最適化する,対向的共進化フレームワークであるCode-A1を紹介する。
コードLLMは、より多くのテストをパスし、テストLLMは、より多くの欠陥を公開することで報酬を得る。
このアーキテクチャ分離は自己修復のリスクを排除し、テストLLMが候補コードを検査し、ターゲットとする対向テストを作成するホワイトボックステスト生成を可能にする。
さらに,体験リプレイのためのミステイクブック機構と,敵の難易度とテスト妥当性のバランスをとる複合報酬機構を導入する。
Qwen2.5-Coderモデルの実験では、Code-A1がコード生成のパフォーマンスの整合性、あるいは人手による注釈付きテストでトレーニングされたモデルを超え、テスト生成能力を大幅に改善することを示した。
関連論文リスト
- Enhancing LLM-Based Test Generation by Eliminating Covered Code [2.2566909388480743]
大規模言語モデル(LLM)は、テスト生成を改善することを約束している。
スケーラブルなLLMベースの単体テスト生成法を提案する。
提案手法は,最先端のLCM法および検索法より優れている。
論文 参考訳(メタデータ) (2026-02-25T15:16:43Z) - CodeContests-O: Powering LLMs via Feedback-Driven Iterative Test Case Generation [71.42965967582147]
既存のアプローチは、Large Language Models (LLM) を用いたテストケースの合成を試みる
包括的なテストケース構築のために、textbfFeedback-Bench Iterative Framework$を提案します。
私たちのデータセットは、平均的真正率(TPR)が89.37%、真負率(TNR)が90.89%で、CodeContestsとCodeContests+をそれぞれ4.32%、9.37%で大幅に上回っている。
論文 参考訳(メタデータ) (2026-01-20T07:32:44Z) - HarnessLLM: Automatic Testing Harness Generation via Reinforcement Learning [30.26598881538489]
既存のLLMベースの自動テスト生成手法は、主に入出力と期待出力のペアを生成する。
我々は、LLMがテストのためのハーネスコードを書くことができる2段階のトレーニングパイプラインであるHarnessLLMを提案する。
論文 参考訳(メタデータ) (2025-11-02T22:41:15Z) - ATGen: Adversarial Reinforcement Learning for Test Case Generation [78.48498301767079]
大きな言語モデル(LLM)はコード生成に優れていますが、その出力には微妙なバグが伴います。
既存のテスト生成方法は静的データセットに依存している。
我々は,対戦型強化学習を通じてテストケースジェネレータを訓練するフレームワークであるATGenを紹介する。
論文 参考訳(メタデータ) (2025-10-16T12:49:25Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - TestART: Improving LLM-based Unit Testing via Co-evolution of Automated Generation and Repair Iteration [7.509927117191286]
大規模言語モデル(LLM)は、単体テストケースを生成する際、顕著な能力を示した。
本研究では,新しい単体テスト生成法であるTestARTを提案する。
TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。
論文 参考訳(メタデータ) (2024-08-06T10:52:41Z) - Large Language Models as Test Case Generators: Performance Evaluation and Enhancement [3.5398126682962587]
大規模言語モデルが高品質なテストケースをいかに生み出すかを検討する。
本稿では,テストインプットとテストアウトプットの生成を分離するemphTestChainというマルチエージェントフレームワークを提案する。
以上の結果から,TestChainはベースラインのマージンを大きく上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-04-20T10:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。