論文の概要: Learning to Generate Unit Test via Adversarial Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.21107v1
- Date: Thu, 28 Aug 2025 14:32:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.832321
- Title: Learning to Generate Unit Test via Adversarial Reinforcement Learning
- Title(参考訳): 対向強化学習による単体テスト生成の学習
- Authors: Dongjun Lee, Changho Hwang, Kimin Lee,
- Abstract要約: 単体テストはプログラミングにおける中核的な実践であり、人間の開発者や大規模言語モデル(LLM)によるプログラムの体系的な評価を可能にする。
プログラム命令を与えられた高品質な単体テストを生成するためにLLMを訓練する新しい強化学習フレームワークであるUTRLを提案する。
実験では, UTRLを用いてトレーニングしたQwen3-4Bが生成した単体テストが, 教師付き微調整によりトレーニングした同一モデルで生成した単体テストと比較して高い品質を示した。
- 参考スコア(独自算出の注目度): 33.82915303652549
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unit testing is a core practice in programming, enabling systematic evaluation of programs produced by human developers or large language models (LLMs). Given the challenges in writing comprehensive unit tests, LLMs have been employed to automate test generation, yet methods for training LLMs to produce high-quality tests remain underexplored. In this work, we propose UTRL, a novel reinforcement learning framework that trains an LLM to generate high-quality unit tests given a programming instruction. Our key idea is to iteratively train two LLMs, the unit test generator and the code generator, in an adversarial manner via reinforcement learning. The unit test generator is trained to maximize a discrimination reward, which reflects its ability to produce tests that expose faults in the code generator's solutions, and the code generator is trained to maximize a code reward, which reflects its ability to produce solutions that pass the unit tests generated by the test generator. In our experiments, we demonstrate that unit tests generated by Qwen3-4B trained via UTRL show higher quality compared to unit tests generated by the same model trained via supervised fine-tuning on human-written ground-truth unit tests, yielding code evaluations that more closely align with those induced by the ground-truth tests. Moreover, Qwen3-4B trained with UTRL outperforms frontier models such as GPT-4.1 in generating high-quality unit tests, highlighting the effectiveness of UTRL in training LLMs for this task.
- Abstract(参考訳): 単体テストはプログラミングにおける中核的な実践であり、人間の開発者や大規模言語モデル(LLM)が生み出すプログラムの体系的な評価を可能にする。
包括的な単体テストを書く際の課題を考えると、LLMはテスト生成を自動化するために使われてきたが、高品質なテストを生成するためにLLMを訓練する手法はまだ未熟である。
本研究では,LLMを学習し,プログラミングの指導を受けると高品質な単体テストを生成する新しい強化学習フレームワークであるUTRLを提案する。
私たちのキーとなるアイデアは、2つのLLM、ユニットテストジェネレータとコードジェネレータを、強化学習を通じて逆向きに訓練することです。
ユニットテストジェネレータは、コードジェネレータのソリューションの欠陥を明らかにするテストを生成する能力を反映した差別報酬を最大化するために訓練され、コードジェネレータはコード報酬を最大化するために訓練され、テストジェネレータによって生成されたユニットテストをパスするソリューションを生成する能力を反映する。
実験では, UTRLを用いてトレーニングしたQwen3-4Bによる単体テストは, 人手による微調整により訓練した同一モデルによる単体テストよりも高い品質を示すことを示した。
さらに、UTRLで訓練されたQwen3-4Bは、GPT-4.1のようなフロンティアモデルよりも高い品質の単体テストを生成する。
関連論文リスト
- Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Learning to Generate Unit Tests for Automated Debugging [52.63217175637201]
ユニットテスト(UT)は、コードの正確性を評価するだけでなく、大きな言語モデル(LLM)にフィードバックを提供する上でも重要な役割を果たします。
提案するUTGenは,LLMに対して,予測出力とともにエラーを示す単体テスト入力を生成することを教える。
UTGen は他の LLM ベースラインを7.59% 上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-03T18:51:43Z) - Improving the Readability of Automatically Generated Tests using Large Language Models [7.7149881834358345]
探索型ジェネレータの有効性とLLM生成試験の可読性を組み合わせることを提案する。
提案手法は,検索ツールが生成するテスト名や変数名の改善に重点を置いている。
論文 参考訳(メタデータ) (2024-12-25T09:08:53Z) - A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites [1.4563527353943984]
大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。
Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
論文 参考訳(メタデータ) (2024-08-14T23:02:16Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation [12.503002900186997]
大規模言語モデル(LLM)は、テストケースの自動生成を含むコード生成で人気を集めている。
LLMは、多くの場合、大量の公開コードでトレーニングされ、ベストプラクティスに従わないテストケースを含む。
RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-03T18:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。