Fugu-MT 論文翻訳(概要): Coverage Isn't Enough: SBFL-Driven Insights into Manually Created vs. Automatically Generated Tests

論文の概要: Coverage Isn't Enough: SBFL-Driven Insights into Manually Created vs. Automatically Generated Tests

arxiv url: http://arxiv.org/abs/2512.11223v1
Date: Fri, 12 Dec 2025 02:07:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-15 15:48:11.623551
Title: Coverage Isn't Enough: SBFL-Driven Insights into Manually Created vs. Automatically Generated Tests
Title（参考訳）: カバレッジが十分ではない - SBFL駆動による手作業開発と自動生成テスト
Authors: Sasara Shimizu, Yoshiki Higo,
Abstract要約: 本研究では、自動生成テストのSBFLスコアとコードカバレッジを、手動で作成したテストと比較する。自動生成テストは手作業で作成したテストよりも高いブランチカバレッジを実現するが,SBFLスコアは低い。
参考スコア（独自算出の注目度）: 0.49416305961918044
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The testing phase is an essential part of software development, but manually creating test cases can be time-consuming. Consequently, there is a growing need for more efficient testing methods. To reduce the burden on developers, various automated test generation tools have been developed, and several studies have been conducted to evaluate the effectiveness of the tests they produce. However, most of these studies focus primarily on coverage metrics, and only a few examine how well the tests support fault localization-particularly using artificial faults introduced through mutation testing. In this study, we compare the SBFL (Spectrum-Based Fault Localization) score and code coverage of automatically generated tests with those of manually created tests. The SBFL score indicates how accurately faults can be localized using SBFL techniques. By employing SBFL score as an evaluation metric-an approach rarely used in prior studies on test generation-we aim to provide new insights into the respective strengths and weaknesses of manually created and automatically generated tests. Our experimental results show that automatically generated tests achieve higher branch coverage than manually created tests, but their SBFL score is lower, especially for code with deeply nested structures. These findings offer guidance on how to effectively combine automatically generated and manually created testing approaches.
Abstract（参考訳）: テストフェーズはソフトウェア開発において不可欠な部分ですが、手動でテストケースを作成するのに時間がかかります。その結果、より効率的なテスト方法の必要性が高まっている。開発者の負担を軽減するため、様々な自動テスト生成ツールを開発し、それらが生成するテストの有効性を評価するためにいくつかの研究がなされている。しかしながら、これらの研究の大部分はカバレッジメトリクスに重点を置いており、特に突然変異テストによって導入された人工的欠陥を用いて、テストが障害の局所化をどの程度うまくサポートするかを調べるのはごくわずかである。本研究では,SBFL(Spectrum-based Fault Localization)スコアと自動生成テストのコードカバレッジを手動で作成したテストと比較する。 SBFLのスコアは、SBFL技術を用いて断層がどの程度正確に局所化できるかを示す。テスト生成に関する先行研究ではほとんど使われていない評価基準としてSBFLスコアを採用することで、手動で作成したテストや自動生成テストの各長所と短所について、新たな洞察を提供することを目指している。実験の結果,自動生成テストは手作業で作成したテストよりも高いブランチカバレッジを実現するが,SBFLスコアは低い。これらの発見は、自動生成と手動生成のテストアプローチを効果的に組み合わせる方法についてのガイダンスを提供する。

関連論文リスト

Can We Classify Flaky Tests Using Only Test Code? An LLM-Based Empirical Study [40.93176986225226]
不安定なテストは、同じコード修正で繰り返し実行されるとき、一貫性のない結果をもたらす。以前の研究は、テストコードの識別子に基づいて不安定なテストを分類するために、機械学習モデルを訓練するアプローチを評価した。
論文参考訳（メタデータ） (2026-02-05T09:15:09Z)
Automated structural testing of LLM-based agents: methods, framework, and case studies [0.05254956925594667]
LLMベースのエージェントは、様々な領域で急速に採用されている。現在のテストアプローチは、ユーザの視点からの受け入れレベルの評価に重点を置いている。 LLMをベースとしたエージェントの構造試験を可能にする手法を提案する。
論文参考訳（メタデータ） (2026-01-25T11:52:30Z)
LLMs for Automated Unit Test Generation and Assessment in Java: The AgoneTest Framework [2.501198441875755]
AgoneTestは、Javaにおける大規模言語モデル生成ユニットテストの評価フレームワークである。コンパイルされるテストのサブセットでは、LLMの生成したテストは、カバレッジと欠陥検出の点で、人間によるテストと一致またはオーバーすることができる。
論文参考訳（メタデータ） (2025-11-25T15:33:00Z)
KTester: Leveraging Domain and Testing Knowledge for More Effective LLM-based Test Generation [36.93577367023509]
本稿では、プロジェクト固有の知識を統合し、ドメイン知識をテストする新しいフレームワークであるKTesterについて述べる。我々は、KTesterを複数のオープンソースプロジェクトで評価し、最先端のLCMベースラインと比較した。結果は、KTesterが6つの主要なメトリクスで既存のメソッドを大幅に上回っていることを示している。
論文参考訳（メタデータ） (2025-11-18T07:57:58Z)
SAINT: Service-level Integration Test Generation with Program Analysis and LLM-based Agents [43.3273990835497]
SAINTは、エンタープライズJavaアプリケーションのサービスレベルのテストのための、新しいホワイトボックステストアプローチである。 SAINTは静的解析、大規模言語モデル(LLM)、LLMベースのエージェントを組み合わせて、エンドポイントとシナリオベースのテストを自動的に生成する。
論文参考訳（メタデータ） (2025-11-17T12:29:42Z)
Intention-Driven Generation of Project-Specific Test Cases [45.2380093475221]
検証意図の記述からプロジェクト固有のテストを生成するIntentionTestを提案する。 13のオープンソースプロジェクトから4,146件のテストケースで,最先端のベースライン(DA, ChatTester, EvoSuite)に対してIntentionTestを広範囲に評価した。
論文参考訳（メタデータ） (2025-07-28T08:35:04Z)
Are Autonomous Web Agents Good Testers? [41.56233403862961]
大規模言語モデル(LLMs)は、自律Webエージェント(AWAs)を活用することで、潜在的な代替手段を提供する。 AWAは自律テストエージェント(ATA)として機能する。本稿では,自然言語テストケース実行におけるAWAの適用可能性について検討する。
論文参考訳（メタデータ） (2025-04-02T08:48:01Z)
Do Test and Environmental Complexity Increase Flakiness? An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストはコードの変更なしにランダムに失敗する。テストの特徴と,テストのフレキネスに影響を与える可能性のあるテスト環境について検討する。
論文参考訳（メタデータ） (2024-09-16T07:52:09Z)
ASTER: Natural and Multi-language Unit Test Generation with LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。コードカバレッジとテスト自然性の観点から,生成したテストの品質を評価するための実証的研究を行った。
論文参考訳（メタデータ） (2024-09-04T21:46:18Z)
A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites [1.4563527353943984]
大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。 Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
論文参考訳（メタデータ） (2024-08-14T23:02:16Z)
TestART: Improving LLM-based Unit Testing via Co-evolution of Automated Generation and Repair Iteration [7.509927117191286]
大規模言語モデル(LLM)は、単体テストケースを生成する際、顕著な能力を示した。本研究では,新しい単体テスト生成法であるTestARTを提案する。 TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。
論文参考訳（メタデータ） (2024-08-06T10:52:41Z)
Effective Test Generation Using Pre-trained Large Language Models and Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。 MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文参考訳（メタデータ） (2023-08-31T08:48:31Z)
Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文参考訳（メタデータ） (2023-07-28T12:38:44Z)
Sequential Kernelized Independence Testing [77.237958592189]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文参考訳（メタデータ） (2022-12-14T18:08:42Z)
TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文参考訳（メタデータ） (2022-05-18T05:43:06Z)
Active Testing: Sample-Efficient Model Evaluation [39.200332879659456]
サンプル効率のよいモデル評価のための新しいフレームワークであるactive testingを紹介する。アクティブテストは、ラベルにテストポイントを慎重に選択することでこれに対処する。我々は,推定器のばらつきを低減しつつ,バイアスの除去方法を示す。
論文参考訳（メタデータ） (2021-03-09T10:20:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。