Fugu-MT 論文翻訳(概要): Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation

論文の概要: Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation

arxiv url: http://arxiv.org/abs/2310.02368v1
Date: Tue, 3 Oct 2023 18:48:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 18:03:32.356134
Title: Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation
Title（参考訳）: 高品質ユニットテスト生成のための自動フィードバックによる強化学習
Authors: Benjamin Steenhoek, Michele Tufano, Neel Sundaresan, Alexey Svyatkovskiy
Abstract要約: 大規模言語モデル(LLM)は、テストケースの自動生成を含むコード生成で人気を集めている。 LLMは、多くの場合、大量の公開コードでトレーニングされ、ベストプラクティスに従わないテストケースを含む。 RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。
参考スコア（独自算出の注目度）: 13.658632458850144
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Software testing is a crucial aspect of software development, and the creation of high-quality tests that adhere to best practices is essential for effective maintenance. Recently, Large Language Models (LLMs) have gained popularity for code generation, including the automated creation of test cases. However, these LLMs are often trained on vast amounts of publicly available code, which may include test cases that do not adhere to best practices and may even contain test smells (anti-patterns). To address this issue, we propose a novel technique called Reinforcement Learning from Static Quality Metrics (RLSQM). To begin, we analyze the anti-patterns generated by the LLM and show that LLMs can generate undesirable test smells. Thus, we train specific reward models for each static quality metric, then utilize Proximal Policy Optimization (PPO) to train models for optimizing a single quality metric at a time. Furthermore, we amalgamate these rewards into a unified reward model aimed at capturing different best practices and quality aspects of tests. By comparing RL-trained models with those trained using supervised learning, we provide insights into how reliably utilize RL to improve test generation quality and into the effects of various training strategies. Our experimental results demonstrate that the RL-optimized model consistently generated high-quality test cases compared to the base LLM, improving the model by up to 21%, and successfully generates nearly 100% syntactically correct code. RLSQM also outperformed GPT-4 on four out of seven metrics. This represents a significant step towards enhancing the overall efficiency and reliability of software testing through Reinforcement Learning and static quality metrics. Our data are available at this link: https://figshare.com/s/ded476c8d4c221222849.
Abstract（参考訳）: ソフトウェアテストはソフトウェア開発の重要な側面であり、ベストプラクティスに準拠した高品質なテストの作成は効果的なメンテナンスに不可欠である。近年、LLM(Large Language Models)は、テストケースの自動生成を含むコード生成で人気を集めている。しかしながら、これらのllmは、ベストプラクティスに準拠せず、テストの臭い(アンチパターン)を含むテストケースを含む、膨大な量の公開コードでトレーニングされることが多い。そこで本研究では,RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。まず, LLM が生成するアンチパターンを分析し, LLM が好ましくない試験臭を発生させることを示す。そこで我々は,静的な指標ごとに特定の報酬モデルを訓練し,その上でPPO(Pximal Policy Optimization)を用いて,単一品質指標を同時に最適化するモデルを訓練する。さらに、これらの報酬を、さまざまなベストプラクティスとテストの品質面を捉えることを目的とした、統一的な報酬モデルに分類します。 rl学習モデルと教師付き学習を用いた学習モデルを比較することで,テスト生成品質向上にrlをどのように活用するか,さまざまなトレーニング戦略の効果について考察する。実験の結果,rl最適化モデルはベースllmと比較して品質の高いテストケースを一貫して生成し,最大21%改善し,100%の構文的正しいコードを生成することに成功した。 RLSQMは7つの指標のうち4つでGPT-4を上回った。これは強化学習と静的品質メトリクスを通じて、ソフトウェアテストの全体的な効率と信頼性を高めるための重要なステップである。我々のデータは、このリンクで入手できる。

関連論文リスト

Aligning Frozen LLMs by Reinforcement Learning: An Iterative Reweight-then-Optimize Approach [65.6966065843227]
Iterative Reweight-then-IROは、凍結ベースモデルのRLスタイルアライメントを実行するフレームワークである。テスト時には、値関数を使用して、検索ベースの最適化プロセスを介してベースモデル生成をガイドする。特に、ユーザは、OpenAIの強化微調整(RFT)と同様、自身のデータセットにモデルをアライメントするためにIROを適用することができる。
論文参考訳（メタデータ） (2025-06-21T21:49:02Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-19T15:32:11Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation [12.503002900186997]
大規模言語モデル(LLM)は自動テストケース生成で人気を集めている。 LLMは大量のオープンソースコードでトレーニングされているため、ベストプラクティスに従わないテストケースをしばしば生成します。静的解析に基づく品質指標に基づく高品質な単体テストを生成するために,RLSQM(Reinforcement Learning from Static Quality Metrics)を提案する。
論文参考訳（メタデータ） (2024-12-18T20:20:01Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.056044348209483]
クラスやメソッドなどのコードモジュールのバグを特定するのに不可欠なユニットテストは、時間的制約のため、開発者によって無視されることが多い。 GPTやMistralのようなLarge Language Models (LLM)は、テスト生成を含むソフトウェア工学における約束を示す。
論文参考訳（メタデータ） (2024-06-28T20:38:41Z)
ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation [9.409062607311528]
大規模言語モデル(LLM)は優れた性能を示しており、研究者はレジスタ転送レベル(RTL)コード生成の自動化に利用することを模索している。 RTL生成のためのファインチューンLSMへの既存のアプローチは、通常、固定データセット上で実行される。 ITERTLと呼ばれる反復的なトレーニングパラダイムを導入し、これらの問題を緩和する。我々のモデルは GPT4 と State-of-the-art (SOTA) のオープンソースモデルより優れており、VerilogEval- Human ベンチマークでは 53.8% のパス@1 レートを達成した。
論文参考訳（メタデータ） (2024-06-28T01:44:57Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。 SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文参考訳（メタデータ） (2024-01-31T18:21:49Z)
Automatic Unit Test Data Generation and Actor-Critic Reinforcement Learning for Code Synthesis [16.88062487980405]
本稿では,関数シグネチャと関連する単体テストからなるデータを自動的に取得する手法を提案する。自動生成したトレーニングデータと組み合わせることで,事前学習された言語モデルの性能が向上することを示す。
論文参考訳（メタデータ） (2023-10-20T17:13:16Z)
Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。 UPETは性能と効率の面で大幅に向上したことを示す。
論文参考訳（メタデータ） (2023-10-19T02:18:29Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。