論文の概要: Reinforcement Learning from Automatic Feedback for High-Quality Unit
Test Generation
- arxiv url: http://arxiv.org/abs/2310.02368v1
- Date: Tue, 3 Oct 2023 18:48:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 18:03:32.356134
- Title: Reinforcement Learning from Automatic Feedback for High-Quality Unit
Test Generation
- Title(参考訳): 高品質ユニットテスト生成のための自動フィードバックによる強化学習
- Authors: Benjamin Steenhoek, Michele Tufano, Neel Sundaresan, Alexey
Svyatkovskiy
- Abstract要約: 大規模言語モデル(LLM)は、テストケースの自動生成を含むコード生成で人気を集めている。
LLMは、多くの場合、大量の公開コードでトレーニングされ、ベストプラクティスに従わないテストケースを含む。
RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 13.658632458850144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software testing is a crucial aspect of software development, and the
creation of high-quality tests that adhere to best practices is essential for
effective maintenance. Recently, Large Language Models (LLMs) have gained
popularity for code generation, including the automated creation of test cases.
However, these LLMs are often trained on vast amounts of publicly available
code, which may include test cases that do not adhere to best practices and may
even contain test smells (anti-patterns). To address this issue, we propose a
novel technique called Reinforcement Learning from Static Quality Metrics
(RLSQM). To begin, we analyze the anti-patterns generated by the LLM and show
that LLMs can generate undesirable test smells. Thus, we train specific reward
models for each static quality metric, then utilize Proximal Policy
Optimization (PPO) to train models for optimizing a single quality metric at a
time. Furthermore, we amalgamate these rewards into a unified reward model
aimed at capturing different best practices and quality aspects of tests. By
comparing RL-trained models with those trained using supervised learning, we
provide insights into how reliably utilize RL to improve test generation
quality and into the effects of various training strategies. Our experimental
results demonstrate that the RL-optimized model consistently generated
high-quality test cases compared to the base LLM, improving the model by up to
21%, and successfully generates nearly 100% syntactically correct code. RLSQM
also outperformed GPT-4 on four out of seven metrics. This represents a
significant step towards enhancing the overall efficiency and reliability of
software testing through Reinforcement Learning and static quality metrics. Our
data are available at this link: https://figshare.com/s/ded476c8d4c221222849.
- Abstract(参考訳): ソフトウェアテストはソフトウェア開発の重要な側面であり、ベストプラクティスに準拠した高品質なテストの作成は効果的なメンテナンスに不可欠である。
近年、LLM(Large Language Models)は、テストケースの自動生成を含むコード生成で人気を集めている。
しかしながら、これらのllmは、ベストプラクティスに準拠せず、テストの臭い(アンチパターン)を含むテストケースを含む、膨大な量の公開コードでトレーニングされることが多い。
そこで本研究では,RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。
まず, LLM が生成するアンチパターンを分析し, LLM が好ましくない試験臭を発生させることを示す。
そこで我々は,静的な指標ごとに特定の報酬モデルを訓練し,その上でPPO(Pximal Policy Optimization)を用いて,単一品質指標を同時に最適化するモデルを訓練する。
さらに、これらの報酬を、さまざまなベストプラクティスとテストの品質面を捉えることを目的とした、統一的な報酬モデルに分類します。
rl学習モデルと教師付き学習を用いた学習モデルを比較することで,テスト生成品質向上にrlをどのように活用するか,さまざまなトレーニング戦略の効果について考察する。
実験の結果,rl最適化モデルはベースllmと比較して品質の高いテストケースを一貫して生成し,最大21%改善し,100%の構文的正しいコードを生成することに成功した。
RLSQMは7つの指標のうち4つでGPT-4を上回った。
これは強化学習と静的品質メトリクスを通じて、ソフトウェアテストの全体的な効率と信頼性を高めるための重要なステップである。
我々のデータは、このリンクで入手できる。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.056044348209483]
クラスやメソッドなどのコードモジュールのバグを特定するのに不可欠なユニットテストは、時間的制約のため、開発者によって無視されることが多い。
GPTやMistralのようなLarge Language Models (LLM)は、テスト生成を含むソフトウェア工学における約束を示す。
論文 参考訳(メタデータ) (2024-06-28T20:38:41Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - Automatic Unit Test Data Generation and Actor-Critic Reinforcement
Learning for Code Synthesis [16.88062487980405]
本稿では,関数シグネチャと関連する単体テストからなるデータを自動的に取得する手法を提案する。
自動生成したトレーニングデータと組み合わせることで,事前学習された言語モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T17:13:16Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。