論文の概要: A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites
- arxiv url: http://arxiv.org/abs/2408.07846v2
- Date: Fri, 16 Aug 2024 00:18:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 10:48:24.427354
- Title: A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites
- Title(参考訳): 大規模言語モデルを用いた自動単体テスト生成システムと生成テストスイートの評価
- Authors: Andrea Lops, Fedelucio Narducci, Azzurra Ragone, Michelantonio Trizio, Claudio Bartolini,
- Abstract要約: 大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。
Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
- 参考スコア(独自算出の注目度): 1.4563527353943984
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unit tests represent the most basic level of testing within the software testing lifecycle and are crucial to ensuring software correctness. Designing and creating unit tests is a costly and labor-intensive process that is ripe for automation. Recently, Large Language Models (LLMs) have been applied to various aspects of software development, including unit test generation. Although several empirical studies evaluating LLMs' capabilities in test code generation exist, they primarily focus on simple scenarios, such as the straightforward generation of unit tests for individual methods. These evaluations often involve independent and small-scale test units, providing a limited view of LLMs' performance in real-world software development scenarios. Moreover, previous studies do not approach the problem at a suitable scale for real-life applications. Generated unit tests are often evaluated via manual integration into the original projects, a process that limits the number of tests executed and reduces overall efficiency. To address these gaps, we have developed an approach for generating and evaluating more real-life complexity test suites. Our approach focuses on class-level test code generation and automates the entire process from test generation to test assessment. In this work, we present AgoneTest: an automated system for generating test suites for Java projects and a comprehensive and principled methodology for evaluating the generated test suites. Starting from a state-of-the-art dataset (i.e., Methods2Test), we built a new dataset for comparing human-written tests with those generated by LLMs. Our key contributions include a scalable automated software system, a new dataset, and a detailed methodology for evaluating test quality.
- Abstract(参考訳): 単体テストは、ソフトウェアテストライフサイクルの中でもっとも基本的なレベルのテストであり、ソフトウェアの正しさを保証するのに不可欠です。
単体テストの設計と作成は、自動化のためのコストと労力のかかるプロセスです。
近年,大規模言語モデル (LLM) は単体テスト生成を含むソフトウェア開発の様々な側面に適用されている。
テストコード生成におけるLLMの機能を評価する実験的な研究はいくつか存在するが、個々のメソッドの単体テストを直接生成するなど、単純なシナリオに重点を置いている。
これらの評価はしばしば独立して小規模なテストユニットを伴い、現実のソフトウェア開発シナリオにおけるLLMのパフォーマンスの限られたビューを提供する。
さらに、従来の研究では、現実の応用に適切なスケールでこの問題にアプローチしていない。
生成したユニットテストは、しばしばオリジナルのプロジェクトへの手動統合を通じて評価される。
これらのギャップに対処するため,我々はより現実的な複雑性テストスイートの生成と評価を行うアプローチを開発した。
本稿では,クラスレベルのテストコード生成に注目し,テスト生成からテストアセスメントまでのプロセス全体を自動化する。
本稿では、Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestと、生成されたテストスイートを評価するための包括的で原則化された方法論について紹介する。
最先端のデータセット(すなわちMethods2Test)から始まり、人間の記述したテストとLLMの生成したテストを比較するための新しいデータセットを構築しました。
私たちの重要なコントリビューションには、スケーラブルな自動化ソフトウェアシステム、新しいデータセット、テスト品質を評価するための詳細な方法論が含まれています。
関連論文リスト
- Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。
最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文 参考訳(メタデータ) (2024-10-31T15:06:16Z) - LLM-based Unit Test Generation via Property Retrieval [26.906316611858518]
プロパティベースのRetrieval Augmentationは、基本的なベクトル、テキスト類似性、グラフベースのメソッドを超えてLLMベースのRetrieval-Augmented Generationを拡張する。
提案手法では,タスク固有のコンテキストを考慮し,プロパティ検索機構を導入している。
提案手法は,前処理,プロパティ検索,単体テスト生成を逐次実行するAPTと呼ばれるツールに実装する。
論文 参考訳(メタデータ) (2024-10-17T13:33:12Z) - Multi-language Unit Test Generation using LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。
パイプラインをさまざまなプログラミング言語、特にJavaとPython、そして環境モックを必要とする複雑なソフトウェアに適用する方法を示します。
以上の結果から,静的解析によって導かれるLCMベースのテスト生成は,最新のテスト生成技術と競合し,さらに性能も向上することが示された。
論文 参考訳(メタデータ) (2024-09-04T21:46:18Z) - Improving LLM-based Unit test generation via Template-based Repair [8.22619177301814]
単体テストは個々のプログラムユニットのバグを検出するのに不可欠だが、時間と労力を消費する。
大規模言語モデル(LLM)は、顕著な推論と生成能力を示している。
本稿では,新しい単体テスト生成法であるTestARTを提案する。
論文 参考訳(メタデータ) (2024-08-06T10:52:41Z) - Harnessing the Power of LLMs: Automating Unit Test Generation for High-Performance Computing [7.3166218350585135]
ユニットテストは、品質を保証するために、ソフトウェア工学において不可欠です。
並列処理や高性能計算ソフトウェア、特に科学応用では広く使われていない。
本稿では,このようなソフトウェアを対象としたユニットテストの自動生成手法を提案する。
論文 参考訳(メタデータ) (2024-07-06T22:45:55Z) - Automatic benchmarking of large multimodal models via iterative experiment programming [71.78089106671581]
本稿では,LMMの自動ベンチマークのための最初のフレームワークであるAPExを紹介する。
自然言語で表現された研究の質問に対して、APExは大きな言語モデル(LLM)と事前定義されたツールのライブラリを活用して、手元にあるモデルの一連の実験を生成する。
調査の現在の状況に基づいて、APExはどの実験を行うか、結果が結論を引き出すのに十分かどうかを選択する。
論文 参考訳(メタデータ) (2024-06-18T06:43:46Z) - Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。
TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。
評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文 参考訳(メタデータ) (2024-02-09T00:34:39Z) - Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。
このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文 参考訳(メタデータ) (2023-07-28T12:38:44Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - ChatUniTest: A Framework for LLM-Based Test Generation [17.296369651892228]
本稿では,自動ユニットテスト生成フレームワークChatUniTestを提案する。
ChatUniTestには、アダプティブな焦点コンテキスト機構が組み込まれている。
評価の結果,ChatUniTest は TestSpark と EvoSuite よりも高い性能を示した。
論文 参考訳(メタデータ) (2023-05-08T15:12:07Z) - Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。
CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。
ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文 参考訳(メタデータ) (2020-05-08T15:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。