Fugu-MT 論文翻訳(概要): Testing with AI Agents: An Empirical Study of Test Generation Frequency, Quality, and Coverage

論文の概要: Testing with AI Agents: An Empirical Study of Test Generation Frequency, Quality, and Coverage

arxiv url: http://arxiv.org/abs/2603.13724v1
Date: Sat, 14 Mar 2026 03:01:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.362341
Title: Testing with AI Agents: An Empirical Study of Test Generation Frequency, Quality, and Coverage
Title（参考訳）: AIエージェントによるテスト: テスト生成頻度、品質、カバレッジに関する実証的研究
Authors: Suzuka Yoshimoto, Shun Fujita, Kosei Horikawa, Daniel Feitosa, Yutaro Kashiwa, Hajimu Iida,
Abstract要約: 本研究では,AIDevデータセットを用いたエージェントベースコーディングツールによるテスト生成の実験的検討を行った。テスト関連変更を含む2,232件のコミットを抽出し,テスト追加頻度,生成したテストの構造特性,コードカバレッジへの影響の3つの側面を検討した。その結果,(i)AIは,実世界のリポジトリにテストを追加するコミットの16.4%を作成した。(ii)AI生成テストメソッドは,より長いコードと高いアサーション密度を特徴とする構造パターンを示し,(iii)AI生成テストは,人手によるテストに匹敵するコードカバレッジに寄与していることがわかった。
参考スコア（独自算出の注目度）: 1.6782288954198918
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Agent-based coding tools have transformed software development practices. Unlike prompt-based approaches that require developers to manually integrate generated code, these agent-based tools autonomously interact with repositories to create, modify, and execute code, including test generation. While many developers have adopted agent-based coding tools, little is known about how these tools generate tests in real-world development scenarios or how AI-generated tests compare to human-written ones. This study presents an empirical analysis of test generation by agent-based coding tools using the AIDev dataset. We extracted 2,232 commits containing test-related changes and investigated three aspects: the frequency of test additions, the structural characteristics of the generated tests, and their impact on code coverage. Our findings reveal that (i) AI authored 16.4% of all commits adding tests in real-world repositories, (ii) AI-generated test methods exhibit distinct structural patterns, featuring longer code and a higher density of assertions while maintaining lower cyclomatic complexity through linear logic, and (iii) AI-generated tests contribute to code coverage comparable to human-written tests, frequently achieving positive coverage gains across several projects.
Abstract（参考訳）: エージェントベースのコーディングツールは、ソフトウェア開発のプラクティスを変えました。開発者が手動で生成されたコードを統合する必要があるプロンプトベースのアプローチとは異なり、これらのエージェントベースのツールは、自動でリポジトリと対話して、テスト生成を含むコードの作成、修正、実行を行う。多くの開発者はエージェントベースのコーディングツールを採用していますが、これらのツールが実際の開発シナリオでテストを生成する方法や、AIが生成したテストが人間が書いたものと比較する方法についてはほとんど分かっていません。本研究では,AIDevデータセットを用いたエージェントベースコーディングツールによるテスト生成の実験的検討を行った。テスト関連変更を含む2,232件のコミットを抽出し,テスト追加頻度,生成したテストの構造特性,コードカバレッジへの影響の3点を検討した。私たちの発見は (i)AIは、実世界のリポジトリにテストを追加する全コミットの16.4%を作成した。 (II)AIによるテスト手法は、より長いコードとより高いアサーション密度を特徴とし、線形論理によるシクロマティックな複雑さを低く保ちながら、異なる構造パターンを示す。 3) AI生成テストは、人手によるテストに匹敵するコードカバレッジに寄与し、複数のプロジェクトにおいて肯定的なカバレッジ向上を達成します。

関連論文リスト

Hamster: A Large-Scale Study and Characterization of Developer-Written Tests [44.65515600399573]
我々はJavaアプリケーションの開発者によるテストについて調査し、オープンソースリポジトリから170万のテストケースをカバーした。この結果から,開発者によるテストの大部分は,現在のATGツールの能力以上の特性を示すことがわかった。私たちは、現在のツール機能と開発者のテストプラクティスに対するより効果的なツールサポートのギャップを埋めるのに役立つ有望な研究方向を特定します。
論文参考訳（メタデータ） (2025-09-30T13:08:23Z)
From Reproduction to Replication: Evaluating Research Agents with Progressive Code Masking [48.90371827091671]
AutoExperimentは、AIエージェントの機械学習実験の実装と実行能力を評価するベンチマークである。我々は最先端のエージェントを評価し、n$が増加するにつれて性能が急速に低下することを発見した。本研究は、長期コード生成、文脈検索、自律的な実験実行における重要な課題を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-24T15:39:20Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
Disrupting Test Development with AI Assistants [1.024113475677323]
GitHub Copilot、ChatGPT、TabnineなどのジェネレーティブAI支援コーディングツールは、ソフトウェア開発を大きく変えた。本稿では、これらのイノベーションが生産性とソフトウェア開発のメトリクスにどのように影響するかを分析する。
論文参考訳（メタデータ） (2024-11-04T17:52:40Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
ASTER: Natural and Multi-language Unit Test Generation with LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。コードカバレッジとテスト自然性の観点から,生成したテストの品質を評価するための実証的研究を行った。
論文参考訳（メタデータ） (2024-09-04T21:46:18Z)
Leveraging Large Language Models for Enhancing the Understandability of Generated Unit Tests [4.574205608859157]
我々は,検索ベースのソフトウェアテストと大規模言語モデルを組み合わせたUTGenを導入し,自動生成テストケースの理解性を向上する。 UTGenテストケースで課題に取り組む参加者は、最大33%のバグを修正し、ベースラインテストケースと比較して最大20%の時間を使用できます。
論文参考訳（メタデータ） (2024-08-21T15:35:34Z)
SWT-Bench: Testing and Validating Real-World Bug-Fixes with Code Agents [10.730852617039451]
ユーザ問題をテストケースに形式化するLLMベースのコードエージェントについて検討する。我々は人気のあるGitHubリポジトリに基づいた新しいベンチマークを提案し、現実世界の問題、地味なバグフィックス、ゴールデンテストを含む。コード修復用に設計されたコードエージェントは,テスト生成用に設計されたシステムの性能を上回っている。
論文参考訳（メタデータ） (2024-06-18T14:54:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。