Fugu-MT 論文翻訳(概要): A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites

論文の概要: A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites

arxiv url: http://arxiv.org/abs/2408.07846v1
Date: Wed, 14 Aug 2024 23:02:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-16 15:28:57.422541
Title: A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites
Title（参考訳）: 大規模言語モデルを用いた自動単体テスト生成システムと生成テストスイートの評価
Authors: Andrea Lops, Fedelucio Narducci, Azzurra Ragone, Michelantonio Trizio, Claudio Bartolini,
Abstract要約: 大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。 textscAgoneTest: Javaプロジェクトのテストスイートを生成する自動システム。
参考スコア（独自算出の注目度）: 1.4563527353943984
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Unit tests represent the most basic level of testing within the software testing lifecycle and are crucial to ensuring software correctness. Designing and creating unit tests is a costly and labor-intensive process that is ripe for automation. Recently, Large Language Models (LLMs) have been applied to various aspects of software development, including unit test generation. Although several empirical studies evaluating LLMs' capabilities in test code generation exist, they primarily focus on simple scenarios, such as the straightforward generation of unit tests for individual methods. These evaluations often involve independent and small-scale test units, providing a limited view of LLMs' performance in real-world software development scenarios. Moreover, previous studies do not approach the problem at a suitable scale for real-life applications. Generated unit tests are often evaluated via manual integration into the original projects, a process that limits the number of tests executed and reduces overall efficiency. To address these gaps, we have developed an approach for generating and evaluating more real-life complexity test suites. Our approach focuses on class-level test code generation and automates the entire process from test generation to test assessment. In this work, we present \textsc{AgoneTest}: an automated system for generating test suites for Java projects and a comprehensive and principled methodology for evaluating the generated test suites. Starting from a state-of-the-art dataset (i.e., \textsc{Methods2Test}), we built a new dataset for comparing human-written tests with those generated by LLMs. Our key contributions include a scalable automated software system, a new dataset, and a detailed methodology for evaluating test quality.
Abstract（参考訳）: 単体テストは、ソフトウェアテストライフサイクルの中でもっとも基本的なレベルのテストであり、ソフトウェアの正しさを保証するのに不可欠です。単体テストの設計と作成は、自動化のためのコストと労力のかかるプロセスです。近年,大規模言語モデル (LLM) は単体テスト生成を含むソフトウェア開発の様々な側面に適用されている。テストコード生成におけるLLMの機能を評価する実験的な研究はいくつか存在するが、個々のメソッドの単体テストを直接生成するなど、単純なシナリオに重点を置いている。これらの評価はしばしば独立して小規模なテストユニットを伴い、現実のソフトウェア開発シナリオにおけるLLMのパフォーマンスの限られたビューを提供する。さらに、従来の研究では、現実の応用に適切なスケールでこの問題にアプローチしていない。生成したユニットテストは、しばしばオリジナルのプロジェクトへの手動統合を通じて評価される。これらのギャップに対処するため,我々はより現実的な複雑性テストスイートの生成と評価を行うアプローチを開発した。本稿では,クラスレベルのテストコード生成に注目し,テスト生成からテストアセスメントまでのプロセス全体を自動化する。本稿では、Javaプロジェクトのテストスイートを生成する自動化システムであるtextsc{AgoneTest}と、生成されたテストスイートを評価するための総合的で原則化された方法論を提示する。最先端のデータセット(つまり \textsc{Methods2Test})から始まり、人間の記述したテストとLLMの生成したテストを比較するための新しいデータセットを構築しました。私たちの重要なコントリビューションには、スケーラブルな自動化ソフトウェアシステム、新しいデータセット、テスト品質を評価するための詳細な方法論が含まれています。

関連論文リスト

Automated Test Suite Enhancement Using Large Language Models with Few-shot Prompting [0.0]
単体テストは、コードモジュールの機能的正当性を検証するのに不可欠である。検索ベースのソフトウェアテスト(SBST)、可読性、自然性、実用的なユーザビリティの欠如など、従来のアプローチを採用したツールによって生成されたユニットテスト。ソフトウェアリポジトリには、人間によるテスト、LLMで生成されたテスト、SBSTのような従来のアプローチを使ったツールが混在している。
論文参考訳（メタデータ） (2026-02-12T18:42:49Z)
TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance [1.4341136505032424]
TAM-Evalは、3つのコアテストメンテナンスシナリオにわたるモデルパフォーマンスを評価するフレームワークである。ベンチマークでは、Python、Java、Goプロジェクトのシナリオを自動的に抽出し、検証します。我々は,自動ソフトウェアテストの今後の研究を支援するオープンソースフレームワークとして,TAM-Evalをリリースした。
論文参考訳（メタデータ） (2026-01-26T07:47:22Z)
LLMs for Automated Unit Test Generation and Assessment in Java: The AgoneTest Framework [2.501198441875755]
AgoneTestは、Javaにおける大規模言語モデル生成ユニットテストの評価フレームワークである。コンパイルされるテストのサブセットでは、LLMの生成したテストは、カバレッジと欠陥検出の点で、人間によるテストと一致またはオーバーすることができる。
論文参考訳（メタデータ） (2025-11-25T15:33:00Z)
Hamster: A Large-Scale Study and Characterization of Developer-Written Tests [44.65515600399573]
我々はJavaアプリケーションの開発者によるテストについて調査し、オープンソースリポジトリから170万のテストケースをカバーした。この結果から,開発者によるテストの大部分は,現在のATGツールの能力以上の特性を示すことがわかった。私たちは、現在のツール機能と開発者のテストプラクティスに対するより効果的なツールサポートのギャップを埋めるのに役立つ有望な研究方向を特定します。
論文参考訳（メタデータ） (2025-09-30T13:08:23Z)
Boosting Rust Unit Test Coverage through Hybrid Program Analysis and Large Language Models [14.536415473544146]
本稿では,大規模言語モデル(LLM)を活用して高カバレッジ単体テストを生成する手法であるPALMを提案する。 PALMはプログラム解析を行い、関数内の分岐条件を特定し、それを経路制約に結合する。このアプローチを実装し、それを10のオープンソースのRustクラッドで評価します。
論文参考訳（メタデータ） (2025-06-10T17:21:21Z)
Evaluating Large Language Models for the Generation of Unit Tests with Equivalence Partitions and Boundary Values [42.88667535189424]
本研究では,Large Language Models (LLM) がテストケースを自動生成する可能性を評価する。コードと要求を統合し、等価パーティションや境界値といった重要なケースをカバーする最適化されたプロンプトが開発された。その結果, LLMの有効性は, 適切に設計されたプロンプト, 堅牢な実装, 正確な要件に依存することがわかった。
論文参考訳（メタデータ） (2025-05-14T22:22:15Z)
TestForge: Feedback-Driven, Agentic Test Suite Generation [7.288137795439405]
TestForgeは、現実世界のコードのための高品質なテストスイートをコスト効率よく生成するように設計されたエージェントユニットテスティングフレームワークである。 TestForgeは、最先端の検索ベースの技術と比較して、より自然で理解しやすいテストを生成する。
論文参考訳（メタデータ） (2025-03-18T20:21:44Z)
ProjectTest: A Project-level LLM Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms [48.43237545197775]
単体テスト生成はLLMの有望かつ重要なユースケースとなっている。 ProjectTestは、Python、Java、JavaScriptをカバーするユニットテスト生成のためのプロジェクトレベルのベンチマークである。
論文参考訳（メタデータ） (2025-02-10T15:24:30Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文参考訳（メタデータ） (2024-10-31T15:06:16Z)
LLM-based Unit Test Generation via Property Retrieval [26.906316611858518]
プロパティベースのRetrieval Augmentationは、基本的なベクトル、テキスト類似性、グラフベースのメソッドを超えてLLMベースのRetrieval-Augmented Generationを拡張する。提案手法では,タスク固有のコンテキストを考慮し,プロパティ検索機構を導入している。提案手法は,前処理,プロパティ検索,単体テスト生成を逐次実行するAPTと呼ばれるツールに実装する。
論文参考訳（メタデータ） (2024-10-17T13:33:12Z)
Multi-language Unit Test Generation using LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。パイプラインをさまざまなプログラミング言語、特にJavaとPython、そして環境モックを必要とする複雑なソフトウェアに適用する方法を示します。以上の結果から,静的解析によって導かれるLCMベースのテスト生成は,最新のテスト生成技術と競合し,さらに性能も向上することが示された。
論文参考訳（メタデータ） (2024-09-04T21:46:18Z)
Improving LLM-based Unit test generation via Template-based Repair [8.22619177301814]
単体テストは個々のプログラムユニットのバグを検出するのに不可欠だが、時間と労力を消費する。大規模言語モデル(LLM)は、顕著な推論と生成能力を示している。本稿では,新しい単体テスト生成法であるTestARTを提案する。
論文参考訳（メタデータ） (2024-08-06T10:52:41Z)
Harnessing the Power of LLMs: Automating Unit Test Generation for High-Performance Computing [7.3166218350585135]
ユニットテストは、品質を保証するために、ソフトウェア工学において不可欠です。並列処理や高性能計算ソフトウェア、特に科学応用では広く使われていない。本稿では,このようなソフトウェアを対象としたユニットテストの自動生成手法を提案する。
論文参考訳（メタデータ） (2024-07-06T22:45:55Z)
Automatic benchmarking of large multimodal models via iterative experiment programming [71.78089106671581]
本稿では,LMMの自動ベンチマークのための最初のフレームワークであるAPExを紹介する。自然言語で表現された研究の質問に対して、APExは大きな言語モデル(LLM)と事前定義されたツールのライブラリを活用して、手元にあるモデルの一連の実験を生成する。調査の現在の状況に基づいて、APExはどの実験を行うか、結果が結論を引き出すのに十分かどうかを選択する。
論文参考訳（メタデータ） (2024-06-18T06:43:46Z)
Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。 TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文参考訳（メタデータ） (2024-02-09T00:34:39Z)
Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文参考訳（メタデータ） (2023-07-28T12:38:44Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
ChatUniTest: A Framework for LLM-Based Test Generation [17.296369651892228]
本稿では,自動ユニットテスト生成フレームワークChatUniTestを提案する。 ChatUniTestには、アダプティブな焦点コンテキスト機構が組み込まれている。評価の結果,ChatUniTest は TestSpark と EvoSuite よりも高い性能を示した。
論文参考訳（メタデータ） (2023-05-08T15:12:07Z)
Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。 CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文参考訳（メタデータ） (2020-05-08T15:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。