論文の概要: LLMs for Automated Unit Test Generation and Assessment in Java: The AgoneTest Framework
- arxiv url: http://arxiv.org/abs/2511.20403v2
- Date: Wed, 26 Nov 2025 09:14:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 14:46:34.521311
- Title: LLMs for Automated Unit Test Generation and Assessment in Java: The AgoneTest Framework
- Title(参考訳): Javaにおける自動ユニットテスト生成とアセスメントのためのLLM: AgoneTestフレームワーク
- Authors: Andrea Lops, Fedelucio Narducci, Azzurra Ragone, Michelantonio Trizio, Claudio Bartolini,
- Abstract要約: AgoneTestは、Javaにおける大規模言語モデル生成ユニットテストの評価フレームワークである。
コンパイルされるテストのサブセットでは、LLMの生成したテストは、カバレッジと欠陥検出の点で、人間によるテストと一致またはオーバーすることができる。
- 参考スコア(独自算出の注目度): 2.501198441875755
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Unit testing is an essential but resource-intensive step in software development, ensuring individual code units function correctly. This paper introduces AgoneTest, an automated evaluation framework for Large Language Model-generated (LLM) unit tests in Java. AgoneTest does not aim to propose a novel test generation algorithm; rather, it supports researchers and developers in comparing different LLMs and prompting strategies through a standardized end-to-end evaluation pipeline under realistic conditions. We introduce the Classes2Test dataset, which maps Java classes under test to their corresponding test classes, and a framework that integrates advanced evaluation metrics, such as mutation score and test smells, for a comprehensive assessment. Experimental results show that, for the subset of tests that compile, LLM-generated tests can match or exceed human-written tests in terms of coverage and defect detection. Our findings also demonstrate that enhanced prompting strategies contribute to test quality. AgoneTest clarifies the potential of LLMs in software testing and offers insights for future improvements in model design, prompt engineering, and testing practices.
- Abstract(参考訳): 単体テストはソフトウェア開発において必須だがリソース集約的なステップであり、個々のコードユニットが正しく機能することを保証します。
本稿では,Javaにおける大規模言語モデル生成(LLM)ユニットテストの自動評価フレームワークであるAgoneTestを紹介する。
AgoneTestは、新しいテスト生成アルゴリズムを提案することではなく、研究者と開発者が異なるLLMを比較し、現実的な条件下で標準化されたエンドツーエンド評価パイプラインを通じて戦略を促進するのをサポートする。
テスト対象のJavaクラスを対応するテストクラスにマッピングするClasses2Testデータセットと、突然変異スコアやテストの臭いといった高度な評価指標を統合して総合的な評価を行うフレームワークについて紹介する。
実験の結果、コンパイルされたテストのサブセットに対して、LLM生成テストは、カバレッジと欠陥検出の観点から、人手によるテストと一致またはオーバー可能であることが示された。
また,プロンプト戦略の強化がテスト品質に寄与することが示唆された。
AgoneTestは、ソフトウェアテストにおけるLLMの可能性を明らかにし、モデル設計、迅速なエンジニアリング、テストプラクティスにおける将来の改善に対する洞察を提供する。
関連論文リスト
- Automated Test Suite Enhancement Using Large Language Models with Few-shot Prompting [0.0]
単体テストは、コードモジュールの機能的正当性を検証するのに不可欠である。
検索ベースのソフトウェアテスト(SBST)、可読性、自然性、実用的なユーザビリティの欠如など、従来のアプローチを採用したツールによって生成されたユニットテスト。
ソフトウェアリポジトリには、人間によるテスト、LLMで生成されたテスト、SBSTのような従来のアプローチを使ったツールが混在している。
論文 参考訳(メタデータ) (2026-02-12T18:42:49Z) - SAINT: Service-level Integration Test Generation with Program Analysis and LLM-based Agents [43.3273990835497]
SAINTは、エンタープライズJavaアプリケーションのサービスレベルのテストのための、新しいホワイトボックステストアプローチである。
SAINTは静的解析、大規模言語モデル(LLM)、LLMベースのエージェントを組み合わせて、エンドポイントとシナリオベースのテストを自動的に生成する。
論文 参考訳(メタデータ) (2025-11-17T12:29:42Z) - TestForge: Feedback-Driven, Agentic Test Suite Generation [7.288137795439405]
TestForgeは、現実世界のコードのための高品質なテストスイートをコスト効率よく生成するように設計されたエージェントユニットテスティングフレームワークである。
TestForgeは、最先端の検索ベースの技術と比較して、より自然で理解しやすいテストを生成する。
論文 参考訳(メタデータ) (2025-03-18T20:21:44Z) - ProjectTest: A Project-level LLM Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms [48.43237545197775]
単体テスト生成はLLMの有望かつ重要なユースケースとなっている。
ProjectTestは、Python、Java、JavaScriptをカバーするユニットテスト生成のためのプロジェクトレベルのベンチマークである。
論文 参考訳(メタデータ) (2025-02-10T15:24:30Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。
最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文 参考訳(メタデータ) (2024-10-31T15:06:16Z) - ASTER: Natural and Multi-language Unit Test Generation with LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。
コードカバレッジとテスト自然性の観点から,生成したテストの品質を評価するための実証的研究を行った。
論文 参考訳(メタデータ) (2024-09-04T21:46:18Z) - A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites [1.4563527353943984]
大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。
Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
論文 参考訳(メタデータ) (2024-08-14T23:02:16Z) - Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。
TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。
評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文 参考訳(メタデータ) (2024-02-09T00:34:39Z) - Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。
このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文 参考訳(メタデータ) (2023-07-28T12:38:44Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Automated Support for Unit Test Generation: A Tutorial Book Chapter [21.716667622896193]
単体テストは、システムの他の部分と独立してテストできる最小のコードセグメントをテストする段階である。
単体テストは通常実行可能なコードとして書かれ、Pythonのpytestのような単体テストフレームワークが提供する形式で書かれる。
本章では,検索に基づく単体テスト生成の概念を紹介する。
論文 参考訳(メタデータ) (2021-10-26T11:13:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。