論文の概要: Coverage Isn't Enough: SBFL-Driven Insights into Manually Created vs. Automatically Generated Tests
- arxiv url: http://arxiv.org/abs/2512.11223v1
- Date: Fri, 12 Dec 2025 02:07:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.623551
- Title: Coverage Isn't Enough: SBFL-Driven Insights into Manually Created vs. Automatically Generated Tests
- Title(参考訳): カバレッジが十分ではない - SBFL駆動による手作業開発と自動生成テスト
- Authors: Sasara Shimizu, Yoshiki Higo,
- Abstract要約: 本研究では、自動生成テストのSBFLスコアとコードカバレッジを、手動で作成したテストと比較する。
自動生成テストは手作業で作成したテストよりも高いブランチカバレッジを実現するが,SBFLスコアは低い。
- 参考スコア(独自算出の注目度): 0.49416305961918044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The testing phase is an essential part of software development, but manually creating test cases can be time-consuming. Consequently, there is a growing need for more efficient testing methods. To reduce the burden on developers, various automated test generation tools have been developed, and several studies have been conducted to evaluate the effectiveness of the tests they produce. However, most of these studies focus primarily on coverage metrics, and only a few examine how well the tests support fault localization-particularly using artificial faults introduced through mutation testing. In this study, we compare the SBFL (Spectrum-Based Fault Localization) score and code coverage of automatically generated tests with those of manually created tests. The SBFL score indicates how accurately faults can be localized using SBFL techniques. By employing SBFL score as an evaluation metric-an approach rarely used in prior studies on test generation-we aim to provide new insights into the respective strengths and weaknesses of manually created and automatically generated tests. Our experimental results show that automatically generated tests achieve higher branch coverage than manually created tests, but their SBFL score is lower, especially for code with deeply nested structures. These findings offer guidance on how to effectively combine automatically generated and manually created testing approaches.
- Abstract(参考訳): テストフェーズはソフトウェア開発において不可欠な部分ですが、手動でテストケースを作成するのに時間がかかります。
その結果、より効率的なテスト方法の必要性が高まっている。
開発者の負担を軽減するため、様々な自動テスト生成ツールを開発し、それらが生成するテストの有効性を評価するためにいくつかの研究がなされている。
しかしながら、これらの研究の大部分はカバレッジメトリクスに重点を置いており、特に突然変異テストによって導入された人工的欠陥を用いて、テストが障害の局所化をどの程度うまくサポートするかを調べるのはごくわずかである。
本研究では,SBFL(Spectrum-based Fault Localization)スコアと自動生成テストのコードカバレッジを手動で作成したテストと比較する。
SBFLのスコアは、SBFL技術を用いて断層がどの程度正確に局所化できるかを示す。
テスト生成に関する先行研究ではほとんど使われていない評価基準としてSBFLスコアを採用することで、手動で作成したテストや自動生成テストの各長所と短所について、新たな洞察を提供することを目指している。
実験の結果,自動生成テストは手作業で作成したテストよりも高いブランチカバレッジを実現するが,SBFLスコアは低い。
これらの発見は、自動生成と手動生成のテストアプローチを効果的に組み合わせる方法についてのガイダンスを提供する。
関連論文リスト
- KTester: Leveraging Domain and Testing Knowledge for More Effective LLM-based Test Generation [36.93577367023509]
本稿では、プロジェクト固有の知識を統合し、ドメイン知識をテストする新しいフレームワークであるKTesterについて述べる。
我々は、KTesterを複数のオープンソースプロジェクトで評価し、最先端のLCMベースラインと比較した。
結果は、KTesterが6つの主要なメトリクスで既存のメソッドを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-11-18T07:57:58Z) - SAINT: Service-level Integration Test Generation with Program Analysis and LLM-based Agents [43.3273990835497]
SAINTは、エンタープライズJavaアプリケーションのサービスレベルのテストのための、新しいホワイトボックステストアプローチである。
SAINTは静的解析、大規模言語モデル(LLM)、LLMベースのエージェントを組み合わせて、エンドポイントとシナリオベースのテストを自動的に生成する。
論文 参考訳(メタデータ) (2025-11-17T12:29:42Z) - Are Autonomous Web Agents Good Testers? [41.56233403862961]
大規模言語モデル(LLMs)は、自律Webエージェント(AWAs)を活用することで、潜在的な代替手段を提供する。
AWAは自律テストエージェント(ATA)として機能する。
本稿では,自然言語テストケース実行におけるAWAの適用可能性について検討する。
論文 参考訳(メタデータ) (2025-04-02T08:48:01Z) - Do Test and Environmental Complexity Increase Flakiness? An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストはコードの変更なしにランダムに失敗する。
テストの特徴と,テストのフレキネスに影響を与える可能性のあるテスト環境について検討する。
論文 参考訳(メタデータ) (2024-09-16T07:52:09Z) - ASTER: Natural and Multi-language Unit Test Generation with LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。
コードカバレッジとテスト自然性の観点から,生成したテストの品質を評価するための実証的研究を行った。
論文 参考訳(メタデータ) (2024-09-04T21:46:18Z) - TestART: Improving LLM-based Unit Testing via Co-evolution of Automated Generation and Repair Iteration [7.509927117191286]
大規模言語モデル(LLM)は、単体テストケースを生成する際、顕著な能力を示した。
本研究では,新しい単体テスト生成法であるTestARTを提案する。
TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。
論文 参考訳(メタデータ) (2024-08-06T10:52:41Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。
このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文 参考訳(メタデータ) (2023-07-28T12:38:44Z) - Active Testing: Sample-Efficient Model Evaluation [39.200332879659456]
サンプル効率のよいモデル評価のための新しいフレームワークであるactive testingを紹介する。
アクティブテストは、ラベルにテストポイントを慎重に選択することでこれに対処する。
我々は,推定器のばらつきを低減しつつ,バイアスの除去方法を示す。
論文 参考訳(メタデータ) (2021-03-09T10:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。