論文の概要: A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites
- arxiv url: http://arxiv.org/abs/2408.07846v1
- Date: Wed, 14 Aug 2024 23:02:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 15:28:57.422541
- Title: A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites
- Title(参考訳): 大規模言語モデルを用いた自動単体テスト生成システムと生成テストスイートの評価
- Authors: Andrea Lops, Fedelucio Narducci, Azzurra Ragone, Michelantonio Trizio, Claudio Bartolini,
- Abstract要約: 大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。
textscAgoneTest: Javaプロジェクトのテストスイートを生成する自動システム。
- 参考スコア(独自算出の注目度): 1.4563527353943984
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unit tests represent the most basic level of testing within the software testing lifecycle and are crucial to ensuring software correctness. Designing and creating unit tests is a costly and labor-intensive process that is ripe for automation. Recently, Large Language Models (LLMs) have been applied to various aspects of software development, including unit test generation. Although several empirical studies evaluating LLMs' capabilities in test code generation exist, they primarily focus on simple scenarios, such as the straightforward generation of unit tests for individual methods. These evaluations often involve independent and small-scale test units, providing a limited view of LLMs' performance in real-world software development scenarios. Moreover, previous studies do not approach the problem at a suitable scale for real-life applications. Generated unit tests are often evaluated via manual integration into the original projects, a process that limits the number of tests executed and reduces overall efficiency. To address these gaps, we have developed an approach for generating and evaluating more real-life complexity test suites. Our approach focuses on class-level test code generation and automates the entire process from test generation to test assessment. In this work, we present \textsc{AgoneTest}: an automated system for generating test suites for Java projects and a comprehensive and principled methodology for evaluating the generated test suites. Starting from a state-of-the-art dataset (i.e., \textsc{Methods2Test}), we built a new dataset for comparing human-written tests with those generated by LLMs. Our key contributions include a scalable automated software system, a new dataset, and a detailed methodology for evaluating test quality.
- Abstract(参考訳): 単体テストは、ソフトウェアテストライフサイクルの中でもっとも基本的なレベルのテストであり、ソフトウェアの正しさを保証するのに不可欠です。
単体テストの設計と作成は、自動化のためのコストと労力のかかるプロセスです。
近年,大規模言語モデル (LLM) は単体テスト生成を含むソフトウェア開発の様々な側面に適用されている。
テストコード生成におけるLLMの機能を評価する実験的な研究はいくつか存在するが、個々のメソッドの単体テストを直接生成するなど、単純なシナリオに重点を置いている。
これらの評価はしばしば独立して小規模なテストユニットを伴い、現実のソフトウェア開発シナリオにおけるLLMのパフォーマンスの限られたビューを提供する。
さらに、従来の研究では、現実の応用に適切なスケールでこの問題にアプローチしていない。
生成したユニットテストは、しばしばオリジナルのプロジェクトへの手動統合を通じて評価される。
これらのギャップに対処するため,我々はより現実的な複雑性テストスイートの生成と評価を行うアプローチを開発した。
本稿では,クラスレベルのテストコード生成に注目し,テスト生成からテストアセスメントまでのプロセス全体を自動化する。
本稿では、Javaプロジェクトのテストスイートを生成する自動化システムであるtextsc{AgoneTest}と、生成されたテストスイートを評価するための総合的で原則化された方法論を提示する。
最先端のデータセット(つまり \textsc{Methods2Test})から始まり、人間の記述したテストとLLMの生成したテストを比較するための新しいデータセットを構築しました。
私たちの重要なコントリビューションには、スケーラブルな自動化ソフトウェアシステム、新しいデータセット、テスト品質を評価するための詳細な方法論が含まれています。
関連論文リスト
- Harnessing the Power of LLMs: Automating Unit Test Generation for High-Performance Computing [7.3166218350585135]
ユニットテストは、品質を保証するために、ソフトウェア工学において不可欠です。
並列処理や高性能計算ソフトウェア、特に科学応用では広く使われていない。
本稿では,このようなソフトウェアを対象としたユニットテストの自動生成手法を提案する。
論文 参考訳(メタデータ) (2024-07-06T22:45:55Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [85.51252685938564]
不確実性定量化(UQ)は、機械学習(ML)に依存するアプリケーションの重要なコンポーネントとして、ますます認識されつつある。
他のMLモデルと同様に、大きな言語モデル(LLM)は、クレームを作成することによって誤った予測をする傾向があり、あるいは与えられた入力に対して単に低品質の出力を生成する。
本稿では,最先端のUQベースラインの集合を実装した新しいベンチマークを提案し,新しいテクニックを制御可能かつ一貫した評価を行う環境を提供する。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Automatic benchmarking of large multimodal models via iterative experiment programming [71.78089106671581]
本稿では,LMMの自動ベンチマークのための最初のフレームワークであるAPExを紹介する。
自然言語で表現された研究の質問に対して、APExは大きな言語モデル(LLM)と事前定義されたツールのライブラリを活用して、手元にあるモデルの一連の実験を生成する。
調査の現在の状況に基づいて、APExはどの実験を行うか、結果が結論を引き出すのに十分かどうかを選択する。
論文 参考訳(メタデータ) (2024-06-18T06:43:46Z) - Large Language Models to Generate System-Level Test Programs Targeting Non-functional Properties [3.3305233186101226]
本稿では,テストプログラムを生成するためのLarge Language Models (LLM)を提案する。
我々は、DUTの非機能特性を最適化するために、事前訓練されたLLMがテストプログラム生成でどのように機能するかを、一目で見てみる。
論文 参考訳(メタデータ) (2024-03-15T08:01:02Z) - Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。
TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。
評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文 参考訳(メタデータ) (2024-02-09T00:34:39Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。
このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文 参考訳(メタデータ) (2023-07-28T12:38:44Z) - ChatUniTest: A Framework for LLM-Based Test Generation [17.296369651892228]
本稿では,自動ユニットテスト生成フレームワークChatUniTestを提案する。
ChatUniTestには、アダプティブな焦点コンテキスト機構が組み込まれている。
評価の結果,ChatUniTest は TestSpark と EvoSuite よりも高い性能を示した。
論文 参考訳(メタデータ) (2023-05-08T15:12:07Z) - Automated Support for Unit Test Generation: A Tutorial Book Chapter [21.716667622896193]
単体テストは、システムの他の部分と独立してテストできる最小のコードセグメントをテストする段階である。
単体テストは通常実行可能なコードとして書かれ、Pythonのpytestのような単体テストフレームワークが提供する形式で書かれる。
本章では,検索に基づく単体テスト生成の概念を紹介する。
論文 参考訳(メタデータ) (2021-10-26T11:13:40Z) - Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。
CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。
ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文 参考訳(メタデータ) (2020-05-08T15:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。