論文の概要: Hamster: A Large-Scale Study and Characterization of Developer-Written Tests
- arxiv url: http://arxiv.org/abs/2509.26204v1
- Date: Tue, 30 Sep 2025 13:08:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.544173
- Title: Hamster: A Large-Scale Study and Characterization of Developer-Written Tests
- Title(参考訳): Hamster: 開発者によるテストの大規模調査と評価
- Authors: Rangeet Pan, Tyler Stennett, Raju Pavuluri, Nate Levin, Alessandro Orso, Saurabh Sinha,
- Abstract要約: 我々はJavaアプリケーションの開発者によるテストについて調査し、オープンソースリポジトリから170万のテストケースをカバーした。
この結果から,開発者によるテストの大部分は,現在のATGツールの能力以上の特性を示すことがわかった。
私たちは、現在のツール機能と開発者のテストプラクティスに対するより効果的なツールサポートのギャップを埋めるのに役立つ有望な研究方向を特定します。
- 参考スコア(独自算出の注目度): 44.65515600399573
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automated test generation (ATG), which aims to reduce the cost of manual test suite development, has been investigated for decades and has produced countless techniques based on a variety of approaches: symbolic analysis, search-based, random and adaptive-random, learning-based, and, most recently, large-language-model-based approaches. However, despite this large body of research, there is still a gap in our understanding of the characteristics of developer-written tests and, consequently, in our assessment of how well ATG techniques and tools can generate realistic and representative tests. To bridge this gap, we conducted an extensive empirical study of developer-written tests for Java applications, covering 1.7 million test cases from open-source repositories. Our study is the first of its kind in studying aspects of developer-written tests that are mostly neglected in the existing literature, such as test scope, test fixtures and assertions, types of inputs, and use of mocking. Based on the characterization, we then compare existing tests with those generated by two state-of-the-art ATG tools. Our results highlight that a vast majority of developer-written tests exhibit characteristics that are beyond the capabilities of current ATG tools. Finally, based on the insights gained from the study, we identify promising research directions that can help bridge the gap between current tool capabilities and more effective tool support for developer testing practices. We hope that this work can set the stage for new advances in the field and bring ATG tools closer to generating the types of tests developers write.
- Abstract(参考訳): 手動テストスイートの開発コストを削減することを目的とした自動テスト生成(ATG)は、何十年にもわたって研究され、記号解析、検索ベース、ランダムおよび適応ランダム、学習ベース、そして最近では、大規模言語モデルに基づくアプローチなど、様々なアプローチに基づいて数え切れないほどの技術を生み出してきた。
しかし、この大規模な研究にもかかわらず、開発者によるテストの特徴に対する理解にはまだギャップがあり、その結果、ATGの技術やツールが現実的で代表的なテストを生成することができるかを評価する上では、まだギャップがある。
このギャップを埋めるため、私たちはJavaアプリケーションの開発者によるテストに関する広範な実証的研究を行い、オープンソースリポジトリから170万のテストケースをカバーしました。
私たちの研究は、テストスコープ、テストフィクスチャとアサーション、入力の種類、モックの使用など、既存の文献にほとんど無視されている開発者によるテストの側面を研究する上で、初めてのものです。
評価結果に基づき、既存のテストと2つの最先端ATGツールで生成されたテストを比較する。
私たちの結果は、開発者によるテストの大部分は、現在のATGツールの能力を超える特性を示しています。
最後に、この調査から得られた洞察に基づいて、現在のツール機能と開発者のテストプラクティスに対するより効果的なツールサポートのギャップを埋めるのに役立つ有望な研究方向を特定します。
この作業によって、この分野における新たな進歩のステージが整い、ATGツールを開発者が書くテストのタイプに近づけることを期待しています。
関連論文リスト
- Targeted Test Selection Approach in Continuous Integration [34.139736599165566]
Targeted Test Selection (T-TS)は、産業用テスト選択のための機械学習アプローチである。
ライブ産業データでは、T-TSはテストの15%しか選択せず、実行時間を5.9times$に減らし、パイプラインを5.6times$に加速し、95%以上のテスト失敗を検出する。
論文 参考訳(メタデータ) (2025-09-12T14:20:51Z) - Intention-Driven Generation of Project-Specific Test Cases [45.2380093475221]
検証意図の記述からプロジェクト固有のテストを生成するIntentionTestを提案する。
13のオープンソースプロジェクトから4,146件のテストケースで,最先端のベースライン(DA, ChatTester, EvoSuite)に対してIntentionTestを広範囲に評価した。
論文 参考訳(メタデータ) (2025-07-28T08:35:04Z) - Use Property-Based Testing to Bridge LLM Code Generation and Validation [38.25155484701058]
大きな言語モデル(LLM)はコード生成において優れていますが、その出力が機能的に正しいことを保証することは、永続的な課題です。
本稿では,Property-Generated Solverを紹介した。Property-Based Testing (PBT)を活用して,高レベルのプログラム特性を検証する新しいフレームワークである。
プロパティ生成ソルバーには、コード生成と反復リファインメント専用のジェネレータと、PBTライフサイクルを管理するテスタという、2つの共同LLMベースのエージェントが使用されている。
論文 参考訳(メタデータ) (2025-06-23T06:01:12Z) - Disrupting Test Development with AI Assistants [1.024113475677323]
GitHub Copilot、ChatGPT、TabnineなどのジェネレーティブAI支援コーディングツールは、ソフトウェア開発を大きく変えた。
本稿では、これらのイノベーションが生産性とソフトウェア開発のメトリクスにどのように影響するかを分析する。
論文 参考訳(メタデータ) (2024-11-04T17:52:40Z) - ASTER: Natural and Multi-language Unit Test Generation with LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。
コードカバレッジとテスト自然性の観点から,生成したテストの品質を評価するための実証的研究を行った。
論文 参考訳(メタデータ) (2024-09-04T21:46:18Z) - A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites [1.4563527353943984]
大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。
Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
論文 参考訳(メタデータ) (2024-08-14T23:02:16Z) - Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。
このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。
当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文 参考訳(メタデータ) (2024-06-11T09:21:50Z) - Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。
このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文 参考訳(メタデータ) (2023-07-28T12:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。