論文の概要: ATGen: Adversarial Reinforcement Learning for Test Case Generation
- arxiv url: http://arxiv.org/abs/2510.14635v1
- Date: Thu, 16 Oct 2025 12:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.857899
- Title: ATGen: Adversarial Reinforcement Learning for Test Case Generation
- Title(参考訳): ATGen: テストケース生成のための逆強化学習
- Authors: Qingyao Li, Xinyi Dai, Weiwen Liu, Xiangyang Li, Yasheng Wang, Ruiming Tang, Yong Yu, Weinan Zhang,
- Abstract要約: 大きな言語モデル(LLM)はコード生成に優れていますが、その出力には微妙なバグが伴います。
既存のテスト生成方法は静的データセットに依存している。
我々は,対戦型強化学習を通じてテストケースジェネレータを訓練するフレームワークであるATGenを紹介する。
- 参考スコア(独自算出の注目度): 78.48498301767079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) excel at code generation, yet their outputs often contain subtle bugs, for which effective test cases are a critical bottleneck. Existing test generation methods, whether based on prompting or supervised fine-tuning, rely on static datasets. This imposes a ``fixed-difficulty ceiling'', fundamentally limiting their ability to uncover novel or more complex bugs beyond their training scope. To overcome this, we introduce ATGen, a framework that trains a test case generator via adversarial reinforcement learning. ATGen pits a test generator against an adversarial code generator that continuously crafts harder bugs to evade the current policy. This dynamic loop creates a curriculum of increasing difficulty challenging current policy. The test generator is optimized via Reinforcement Learning (RL) to jointly maximize ``Output Accuracy'' and ``Attack Success'', enabling it to learn a progressively stronger policy that breaks the fixed-difficulty ceiling of static training. Extensive experiments demonstrate that ATGen significantly outperforms state-of-the-art baselines. We further validate its practical utility, showing it serves as both a more effective filter for Best-of-N inference and a higher-quality reward source for training code generation models. Our work establishes a new, dynamic paradigm for improving the reliability of LLM-generated code.
- Abstract(参考訳): 大きな言語モデル(LLM)はコード生成において優れていますが、そのアウトプットにはしばしば微妙なバグが含まれています。
既存のテスト生成メソッドは、プロンプトや教師付き微調整に基づいているが、静的なデータセットに依存している。
これによって‘fixed-difficulty ceiling’が課せられ、トレーニング範囲を超えて、新しいバグやより複雑なバグを明らかにする能力が根本的に制限される。
これを解決するために、敵の強化学習を通じてテストケースジェネレータを訓練するフレームワークATGenを紹介する。
ATGenは、敵のコードジェネレータに対してテストジェネレータを落とし、現在のポリシーを回避するために、常に難しいバグを発生させる。
このダイナミックループは、現在の政策に挑戦する困難を増すカリキュラムを生み出します。
テストジェネレータはReinforcement Learning (RL)を介して最適化され、``Output Accuracy'' と ``Attack Success'' を共同で最大化する。
大規模な実験により、ATGenは最先端のベースラインを大きく上回っている。
我々はさらに実用性を検証し、Best-of-N推論のためのより効果的なフィルタと、コード生成モデルのトレーニングのための高品質な報酬源の両方を提供することを示した。
我々の研究は、LLM生成コードの信頼性を向上させるための新しい動的パラダイムを確立する。
関連論文リスト
- Alignment with Fill-In-the-Middle for Enhancing Code Generation [56.791415642365415]
コードスニペットを小さな粒度のブロックに分割し,同じテストケースからより多様なDPOペアを生成する手法を提案する。
提案手法は,HumanEval (+), MBPP (+), APPS, LiveCodeBench, BigCodeBenchといったベンチマークデータセットの実験によって検証された,コード生成タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2025-08-27T03:15:53Z) - VERIRL: Boosting the LLM-based Verilog Code Generation via Reinforcement Learning [32.974199255760944]
本稿では,Verilogコード生成に適した強化学習フレームワークを提案する。
スパース信号と雑音信号に対処するために,トレースバックに基づくRescore機構を提案する。
RL微調整中の破滅的忘れと過適合を軽減するため,サンプルバランスの重み付け戦略を導入する。
論文 参考訳(メタデータ) (2025-08-25T20:20:44Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - GenX: Mastering Code and Test Generation with Execution Feedback [7.225594526057816]
本稿では,コード生成モデルとテスト生成モデルを同時にトレーニングする新しい手法を提案する。
テストデータとコードデータの増大のための2つの戦略と、コードとテストランキングのための新しいスコアリング機能を導入します。
その結果、我々のモデルは、テストケースやコードソリューションの数の増加で反復的にトレーニングされた場合、元のデータセットでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2024-12-18T03:18:21Z) - SWT-Bench: Testing and Validating Real-World Bug-Fixes with Code Agents [10.730852617039451]
ユーザ問題をテストケースに形式化するLLMベースのコードエージェントについて検討する。
我々は人気のあるGitHubリポジトリに基づいた新しいベンチマークを提案し、現実世界の問題、地味なバグフィックス、ゴールデンテストを含む。
コード修復用に設計されたコードエージェントは,テスト生成用に設計されたシステムの性能を上回っている。
論文 参考訳(メタデータ) (2024-06-18T14:54:37Z) - Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation [12.503002900186997]
大規模言語モデル(LLM)は、テストケースの自動生成を含むコード生成で人気を集めている。
LLMは、多くの場合、大量の公開コードでトレーニングされ、ベストプラクティスに従わないテストケースを含む。
RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-03T18:48:31Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。