論文の概要: Reinforcement Learning from Automatic Feedback for High-Quality Unit
Test Generation
- arxiv url: http://arxiv.org/abs/2310.02368v1
- Date: Tue, 3 Oct 2023 18:48:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 18:03:32.356134
- Title: Reinforcement Learning from Automatic Feedback for High-Quality Unit
Test Generation
- Title(参考訳): 高品質ユニットテスト生成のための自動フィードバックによる強化学習
- Authors: Benjamin Steenhoek, Michele Tufano, Neel Sundaresan, Alexey
Svyatkovskiy
- Abstract要約: 大規模言語モデル(LLM)は、テストケースの自動生成を含むコード生成で人気を集めている。
LLMは、多くの場合、大量の公開コードでトレーニングされ、ベストプラクティスに従わないテストケースを含む。
RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 13.658632458850144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software testing is a crucial aspect of software development, and the
creation of high-quality tests that adhere to best practices is essential for
effective maintenance. Recently, Large Language Models (LLMs) have gained
popularity for code generation, including the automated creation of test cases.
However, these LLMs are often trained on vast amounts of publicly available
code, which may include test cases that do not adhere to best practices and may
even contain test smells (anti-patterns). To address this issue, we propose a
novel technique called Reinforcement Learning from Static Quality Metrics
(RLSQM). To begin, we analyze the anti-patterns generated by the LLM and show
that LLMs can generate undesirable test smells. Thus, we train specific reward
models for each static quality metric, then utilize Proximal Policy
Optimization (PPO) to train models for optimizing a single quality metric at a
time. Furthermore, we amalgamate these rewards into a unified reward model
aimed at capturing different best practices and quality aspects of tests. By
comparing RL-trained models with those trained using supervised learning, we
provide insights into how reliably utilize RL to improve test generation
quality and into the effects of various training strategies. Our experimental
results demonstrate that the RL-optimized model consistently generated
high-quality test cases compared to the base LLM, improving the model by up to
21%, and successfully generates nearly 100% syntactically correct code. RLSQM
also outperformed GPT-4 on four out of seven metrics. This represents a
significant step towards enhancing the overall efficiency and reliability of
software testing through Reinforcement Learning and static quality metrics. Our
data are available at this link: https://figshare.com/s/ded476c8d4c221222849.
- Abstract(参考訳): ソフトウェアテストはソフトウェア開発の重要な側面であり、ベストプラクティスに準拠した高品質なテストの作成は効果的なメンテナンスに不可欠である。
近年、LLM(Large Language Models)は、テストケースの自動生成を含むコード生成で人気を集めている。
しかしながら、これらのllmは、ベストプラクティスに準拠せず、テストの臭い(アンチパターン)を含むテストケースを含む、膨大な量の公開コードでトレーニングされることが多い。
そこで本研究では,RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。
まず, LLM が生成するアンチパターンを分析し, LLM が好ましくない試験臭を発生させることを示す。
そこで我々は,静的な指標ごとに特定の報酬モデルを訓練し,その上でPPO(Pximal Policy Optimization)を用いて,単一品質指標を同時に最適化するモデルを訓練する。
さらに、これらの報酬を、さまざまなベストプラクティスとテストの品質面を捉えることを目的とした、統一的な報酬モデルに分類します。
rl学習モデルと教師付き学習を用いた学習モデルを比較することで,テスト生成品質向上にrlをどのように活用するか,さまざまなトレーニング戦略の効果について考察する。
実験の結果,rl最適化モデルはベースllmと比較して品質の高いテストケースを一貫して生成し,最大21%改善し,100%の構文的正しいコードを生成することに成功した。
RLSQMは7つの指標のうち4つでGPT-4を上回った。
これは強化学習と静的品質メトリクスを通じて、ソフトウェアテストの全体的な効率と信頼性を高めるための重要なステップである。
我々のデータは、このリンクで入手できる。
関連論文リスト
- UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。
最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。
基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文 参考訳(メタデータ) (2025-01-25T07:21:50Z) - Dynamic Scaling of Unit Tests for Code Reward Modeling [27.349232888627558]
現在の大規模言語モデル(LLM)は、コード生成のような複雑な推論タスクの最初の試みにおいて、正確な応答を生成するのに苦労することが多い。
高速かつ高品質な単体テストスケーリングを実現する軽量で効率的な単体テストジェネレータであるCodeRM-8Bを提案する。
論文 参考訳(メタデータ) (2025-01-02T04:33:31Z) - Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation [12.503002900186997]
大規模言語モデル(LLM)は自動テストケース生成で人気を集めている。
LLMは大量のオープンソースコードでトレーニングされているため、ベストプラクティスに従わないテストケースをしばしば生成します。
静的解析に基づく品質指標に基づく高品質な単体テストを生成するために,RLSQM(Reinforcement Learning from Static Quality Metrics)を提案する。
論文 参考訳(メタデータ) (2024-12-18T20:20:01Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.056044348209483]
クラスやメソッドなどのコードモジュールのバグを特定するのに不可欠なユニットテストは、時間的制約のため、開発者によって無視されることが多い。
GPTやMistralのようなLarge Language Models (LLM)は、テスト生成を含むソフトウェア工学における約束を示す。
論文 参考訳(メタデータ) (2024-06-28T20:38:41Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - Automatic Unit Test Data Generation and Actor-Critic Reinforcement
Learning for Code Synthesis [16.88062487980405]
本稿では,関数シグネチャと関連する単体テストからなるデータを自動的に取得する手法を提案する。
自動生成したトレーニングデータと組み合わせることで,事前学習された言語モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T17:13:16Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。