Fugu-MT 論文翻訳(概要): ATGen: Adversarial Reinforcement Learning for Test Case Generation

論文の概要: ATGen: Adversarial Reinforcement Learning for Test Case Generation

arxiv url: http://arxiv.org/abs/2510.14635v1
Date: Thu, 16 Oct 2025 12:49:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-17 21:15:14.857899
Title: ATGen: Adversarial Reinforcement Learning for Test Case Generation
Title（参考訳）: ATGen: テストケース生成のための逆強化学習
Authors: Qingyao Li, Xinyi Dai, Weiwen Liu, Xiangyang Li, Yasheng Wang, Ruiming Tang, Yong Yu, Weinan Zhang,
Abstract要約: 大きな言語モデル(LLM)はコード生成に優れていますが、その出力には微妙なバグが伴います。既存のテスト生成方法は静的データセットに依存している。我々は,対戦型強化学習を通じてテストケースジェネレータを訓練するフレームワークであるATGenを紹介する。
参考スコア（独自算出の注目度）: 78.48498301767079
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) excel at code generation, yet their outputs often contain subtle bugs, for which effective test cases are a critical bottleneck. Existing test generation methods, whether based on prompting or supervised fine-tuning, rely on static datasets. This imposes a ``fixed-difficulty ceiling'', fundamentally limiting their ability to uncover novel or more complex bugs beyond their training scope. To overcome this, we introduce ATGen, a framework that trains a test case generator via adversarial reinforcement learning. ATGen pits a test generator against an adversarial code generator that continuously crafts harder bugs to evade the current policy. This dynamic loop creates a curriculum of increasing difficulty challenging current policy. The test generator is optimized via Reinforcement Learning (RL) to jointly maximize ``Output Accuracy'' and ``Attack Success'', enabling it to learn a progressively stronger policy that breaks the fixed-difficulty ceiling of static training. Extensive experiments demonstrate that ATGen significantly outperforms state-of-the-art baselines. We further validate its practical utility, showing it serves as both a more effective filter for Best-of-N inference and a higher-quality reward source for training code generation models. Our work establishes a new, dynamic paradigm for improving the reliability of LLM-generated code.
Abstract（参考訳）: 大きな言語モデル(LLM)はコード生成において優れていますが、そのアウトプットにはしばしば微妙なバグが含まれています。既存のテスト生成メソッドは、プロンプトや教師付き微調整に基づいているが、静的なデータセットに依存している。これによって‘fixed-difficulty ceiling’が課せられ、トレーニング範囲を超えて、新しいバグやより複雑なバグを明らかにする能力が根本的に制限される。これを解決するために、敵の強化学習を通じてテストケースジェネレータを訓練するフレームワークATGenを紹介する。 ATGenは、敵のコードジェネレータに対してテストジェネレータを落とし、現在のポリシーを回避するために、常に難しいバグを発生させる。このダイナミックループは、現在の政策に挑戦する困難を増すカリキュラムを生み出します。テストジェネレータはReinforcement Learning (RL)を介して最適化され、``Output Accuracy'' と ``Attack Success'' を共同で最大化する。大規模な実験により、ATGenは最先端のベースラインを大きく上回っている。我々はさらに実用性を検証し、Best-of-N推論のためのより効果的なフィルタと、コード生成モデルのトレーニングのための高品質な報酬源の両方を提供することを示した。我々の研究は、LLM生成コードの信頼性を向上させるための新しい動的パラダイムを確立する。

関連論文リスト

MIST-RL: Mutation-based Incremental Suite Testing via Reinforcement Learning [19.054149750597933]
MIST-RL (Mutation-based Incremental Suite Testing via Reinforcement Learning) は、"スケーリング・バイ・ユーティリティ(scaling-by-utility)"に重点を移すフレームワークである。我々は,機能的に等価なアサーションを抑えながら,新たな欠陥を発見するモデルにインセンティブを与える,動的ペナルティと組み合わされた新たなインクリメンタル突然変異報酬を導入する。 HumanEval+とMBPP+の実験は、MIST-RLが最先端のベースラインより優れていることを示した。
論文参考訳（メタデータ） (2026-03-02T03:22:44Z)
TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models [26.385183692191873]
大規模言語モデル(LLM)はコーディングパラダイムを変えつつありますが、合成的に洗練され、堅牢なコードは依然として重要な課題です。本稿では,テスト駆動型およびcApability-adaptive cuRriculum reinfOrcement fineTuning (TAROT)を提案する。
論文参考訳（メタデータ） (2026-02-17T09:29:18Z)
CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文参考訳（メタデータ） (2026-01-30T10:33:29Z)
RLAC: Reinforcement Learning with Adversarial Critic for Free-Form Generation Tasks [75.52891348667491]
オープンエンド生成タスクは、多様でしばしば暗黙的なタスク固有の評価ルーブリックを満たすために出力を必要とする。関連するルーリックの数が多ければ多いほど、極めて高い検証コストと応答の不完全な評価につながる。 RLAC(Reinforcement Learning with Adrial Critic, Reinforcement Learning with Adrial Critic)を提案する。
論文参考訳（メタデータ） (2025-11-03T17:15:05Z)
Alignment with Fill-In-the-Middle for Enhancing Code Generation [56.791415642365415]
コードスニペットを小さな粒度のブロックに分割し,同じテストケースからより多様なDPOペアを生成する手法を提案する。提案手法は,HumanEval (+), MBPP (+), APPS, LiveCodeBench, BigCodeBenchといったベンチマークデータセットの実験によって検証された,コード生成タスクの大幅な改善を示す。
論文参考訳（メタデータ） (2025-08-27T03:15:53Z)
VERIRL: Boosting the LLM-based Verilog Code Generation via Reinforcement Learning [32.974199255760944]
本稿では,Verilogコード生成に適した強化学習フレームワークを提案する。スパース信号と雑音信号に対処するために,トレースバックに基づくRescore機構を提案する。 RL微調整中の破滅的忘れと過適合を軽減するため,サンプルバランスの重み付け戦略を導入する。
論文参考訳（メタデータ） (2025-08-25T20:20:44Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
GenX: Mastering Code and Test Generation with Execution Feedback [7.225594526057816]
本稿では,コード生成モデルとテスト生成モデルを同時にトレーニングする新しい手法を提案する。テストデータとコードデータの増大のための2つの戦略と、コードとテストランキングのための新しいスコアリング機能を導入します。その結果、我々のモデルは、テストケースやコードソリューションの数の増加で反復的にトレーニングされた場合、元のデータセットでトレーニングされたモデルよりも優れています。
論文参考訳（メタデータ） (2024-12-18T03:18:21Z)
SWT-Bench: Testing and Validating Real-World Bug-Fixes with Code Agents [10.730852617039451]
ユーザ問題をテストケースに形式化するLLMベースのコードエージェントについて検討する。我々は人気のあるGitHubリポジトリに基づいた新しいベンチマークを提案し、現実世界の問題、地味なバグフィックス、ゴールデンテストを含む。コード修復用に設計されたコードエージェントは,テスト生成用に設計されたシステムの性能を上回っている。
論文参考訳（メタデータ） (2024-06-18T14:54:37Z)
Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation [12.503002900186997]
大規模言語モデル(LLM)は、テストケースの自動生成を含むコード生成で人気を集めている。 LLMは、多くの場合、大量の公開コードでトレーニングされ、ベストプラクティスに従わないテストケースを含む。 RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-10-03T18:48:31Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。