論文の概要: Enriching Automatic Test Case Generation by Extracting Relevant Test
Inputs from Bug Reports
- arxiv url: http://arxiv.org/abs/2312.14898v1
- Date: Fri, 22 Dec 2023 18:19:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 13:51:34.379041
- Title: Enriching Automatic Test Case Generation by Extracting Relevant Test
Inputs from Bug Reports
- Title(参考訳): バグレポートから関連するテスト入力を抽出した自動テストケース生成
- Authors: Wendk\^uuni C. Ou\'edraogo, Laura Plein, Kader Kabor\'e, Andrew Habib,
Jacques Klein, David Lo, Tegawend\'e F. Bissyand\'e
- Abstract要約: nameは、自動テスト生成ツールに入力される入力値を特定するためのバグレポートを探索するテクニックである。
Defects4Jプロジェクトでは,正規表現を用いた場合,68.68%の関連入力が抽出された。
- 参考スコア(独自算出の注目度): 8.85274953789614
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The quality of a software is highly dependent on the quality of the tests it
is submitted to. Writing tests for bug detection is thus essential. However, it
is time-consuming when done manually. Automating test cases generation has
therefore been an exciting research area in the software engineering community.
Most approaches have been focused on generating unit tests. Unfortunately,
current efforts often do not lead to the generation of relevant inputs, which
limits the efficiency of automatically generated tests. Towards improving the
relevance of test inputs, we present \name, a technique for exploring bug
reports to identify input values that can be fed to automatic test generation
tools. In this work, we investigate the performance of using inputs extracted
from bug reports with \name to generate test cases with Evosuite. The
evaluation is performed on the Defects4J benchmark. For Defects4J projects, our
study has shown that \name successfully extracted 68.68\% of relevant inputs
when using regular expression in its approach versus 50.21\% relevant inputs
without regular expression. Further, our study has shown the potential to
improve the Line and Instruction Coverage across all projects. Overall, we
successfully collected relevant inputs that led to the detection of 45 bugs
that were previously undetected by the baseline.
- Abstract(参考訳): ソフトウェアの品質は、提出されたテストの品質に大きく依存します。
したがって、バグ検出のためのテストを書くことは不可欠である。
しかし、手動で行うと時間がかかります。
したがって、テストケース生成の自動化は、ソフトウェアエンジニアリングコミュニティにおけるエキサイティングな研究領域である。
ほとんどのアプローチはユニットテストの生成に重点を置いている。
残念なことに、現在の取り組みは、しばしば関連する入力を生成しないため、自動生成テストの効率が制限される。
テストインプットの関連性を改善するために,自動テスト生成ツールに供給可能な入力値を特定するための,バグレポートの探索手法である \name を提案する。
本研究では,バグレポートから抽出した入力を \name で評価し,evosuite でテストケースを生成する。
評価はDefects4Jベンチマークで行われる。
Defects4J プロジェクトでは,正規表現を用いた場合,正規表現を使用せず,関連する入力の 68.68 % を抽出できた。
さらに,本研究では,全プロジェクトにおけるラインとインストラクションのカバレッジを向上させる可能性を示唆した。
全体として、ベースラインによって検出されなかった45のバグの検出に繋がった関連するインプットの収集に成功した。
関連論文リスト
- GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech
Detection? [55.20381279291041]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。
TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。
評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文 参考訳(メタデータ) (2024-02-09T00:34:39Z) - Automated Test Case Repair Using Language Models [0.6124773188525718]
欠陥のないテストケースは、テストスイートの品質を低下させ、ソフトウェア開発プロセスを破壊します。
テストケースの自動修復に事前訓練されたコード言語モデルを活用する新しいアプローチであるTaRGetを提案する。
TaRGetは、テスト修復を言語翻訳タスクとして扱い、言語モデルを微調整するために2段階のプロセスを使用する。
論文 参考訳(メタデータ) (2024-01-12T18:56:57Z) - Automatic Generation of Test Cases based on Bug Reports: a Feasibility
Study with Large Language Models [4.318319522015101]
既存のアプローチは、単純なテスト(例えば単体テスト)や正確な仕様を必要とするテストケースを生成する。
ほとんどのテスト手順は、テストスイートを形成するために人間が書いたテストケースに依存しています。
大規模言語モデル(LLM)を活用し,バグレポートを入力として利用することにより,この生成の実現可能性を検討する。
論文 参考訳(メタデータ) (2023-10-10T05:30:12Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。
このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文 参考訳(メタデータ) (2023-07-28T12:38:44Z) - Tests4Py: A Benchmark for System Testing [11.857060911501016]
Tests4Pyは、人気のあるBugsInPyベンチマークから派生したもので、5つの現実世界のPythonアプリケーションから30のバグが含まれている。
Tests4Pyの各科目は、システム入力の機能的正当性を検証するために、オラクルを伴っている。
システムテストと単体テストの生成を可能にし、テストセットの本質的な側面を調べることによって質的研究を可能にする。
論文 参考訳(メタデータ) (2023-07-11T10:04:52Z) - Large Language Models are Few-shot Testers: Exploring LLM-based General
Bug Reproduction [14.444294152595429]
問題によりオープンソースリポジトリに追加されたテストの数は、対応するプロジェクトテストスイートサイズの約28%であった。
本稿では,Large Language Models (LLMs) を用いたLIBROを提案する。
LIBROの評価は、広く研究されているDefects4Jベンチマークにおいて、全ての研究ケースの33%で障害再現テストケースを生成することができることを示している。
論文 参考訳(メタデータ) (2022-09-23T10:50:47Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video
Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。
自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。
この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文 参考訳(メタデータ) (2022-03-10T00:47:46Z) - Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。
CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。
ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文 参考訳(メタデータ) (2020-05-08T15:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。