Fugu-MT 論文翻訳(概要): Enriching Automatic Test Case Generation by Extracting Relevant Test Inputs from Bug Reports

論文の概要: Enriching Automatic Test Case Generation by Extracting Relevant Test Inputs from Bug Reports

arxiv url: http://arxiv.org/abs/2312.14898v1
Date: Fri, 22 Dec 2023 18:19:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-25 13:51:34.379041
Title: Enriching Automatic Test Case Generation by Extracting Relevant Test Inputs from Bug Reports
Title（参考訳）: バグレポートから関連するテスト入力を抽出した自動テストケース生成
Authors: Wendk\^uuni C. Ou\'edraogo, Laura Plein, Kader Kabor\'e, Andrew Habib, Jacques Klein, David Lo, Tegawend\'e F. Bissyand\'e
Abstract要約: nameは、自動テスト生成ツールに入力される入力値を特定するためのバグレポートを探索するテクニックである。 Defects4Jプロジェクトでは,正規表現を用いた場合,68.68%の関連入力が抽出された。
参考スコア（独自算出の注目度）: 8.85274953789614
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The quality of a software is highly dependent on the quality of the tests it is submitted to. Writing tests for bug detection is thus essential. However, it is time-consuming when done manually. Automating test cases generation has therefore been an exciting research area in the software engineering community. Most approaches have been focused on generating unit tests. Unfortunately, current efforts often do not lead to the generation of relevant inputs, which limits the efficiency of automatically generated tests. Towards improving the relevance of test inputs, we present \name, a technique for exploring bug reports to identify input values that can be fed to automatic test generation tools. In this work, we investigate the performance of using inputs extracted from bug reports with \name to generate test cases with Evosuite. The evaluation is performed on the Defects4J benchmark. For Defects4J projects, our study has shown that \name successfully extracted 68.68\% of relevant inputs when using regular expression in its approach versus 50.21\% relevant inputs without regular expression. Further, our study has shown the potential to improve the Line and Instruction Coverage across all projects. Overall, we successfully collected relevant inputs that led to the detection of 45 bugs that were previously undetected by the baseline.
Abstract（参考訳）: ソフトウェアの品質は、提出されたテストの品質に大きく依存します。したがって、バグ検出のためのテストを書くことは不可欠である。しかし、手動で行うと時間がかかります。したがって、テストケース生成の自動化は、ソフトウェアエンジニアリングコミュニティにおけるエキサイティングな研究領域である。ほとんどのアプローチはユニットテストの生成に重点を置いている。残念なことに、現在の取り組みは、しばしば関連する入力を生成しないため、自動生成テストの効率が制限される。テストインプットの関連性を改善するために,自動テスト生成ツールに供給可能な入力値を特定するための,バグレポートの探索手法である \name を提案する。本研究では,バグレポートから抽出した入力を \name で評価し,evosuite でテストケースを生成する。評価はDefects4Jベンチマークで行われる。 Defects4J プロジェクトでは,正規表現を用いた場合,正規表現を使用せず,関連する入力の 68.68 % を抽出できた。さらに,本研究では,全プロジェクトにおけるラインとインストラクションのカバレッジを向上させる可能性を示唆した。全体として、ベースラインによって検出されなかった45のバグの検出に繋がった関連するインプットの収集に成功した。

関連論文リスト

Rethinking Verification for LLM Code Generation: From Generation to Testing [44.46778801679273]
大規模言語モデル(LLM)は最近、HumanEvalやLiveCodeBenchといったコード生成ベンチマークで顕著な成功を収めた。本稿では,テストスーツの厳密な定量化を目的とした新しい多次元メトリクスを提案する。実験の結果、SAGAは90.62%、検証器の精度はTCGBenchで32.58%に達することがわかった。
論文参考訳（メタデータ） (2025-07-09T14:58:47Z)
Boosting Rust Unit Test Coverage through Hybrid Program Analysis and Large Language Models [14.536415473544146]
本稿では,大規模言語モデル(LLM)を活用して高カバレッジ単体テストを生成する手法であるPALMを提案する。 PALMはプログラム解析を行い、関数内の分岐条件を特定し、それを経路制約に結合する。このアプローチを実装し、それを10のオープンソースのRustクラッドで評価します。
論文参考訳（メタデータ） (2025-06-10T17:21:21Z)
Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。従来の自己回帰復号法と比較して,STANDは推論遅延を60～65%削減することを示した。モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文参考訳（メタデータ） (2025-06-05T07:31:18Z)
From Requirements to Test Cases: An NLP-Based Approach for High-Performance ECU Test Case Automation [0.5249805590164901]
本研究では,自然言語処理技術を用いて,自然言語要求を構造化されたテストケース仕様に変換する手法について検討する。 400個の特徴要素文書のデータセットを用いて、信号名や値などの重要な要素を抽出するための両方のアプローチを評価した。 Rule-Based 法は NER 法よりも優れており、95% の精度で単一信号でより単純な要求を満たすことができる。
論文参考訳（メタデータ） (2025-05-01T14:23:55Z)
AutoLogi: Automated Generation of Logic Puzzles for Evaluating Reasoning Abilities of Large Language Models [86.83875864328984]
本稿では,オープンエンド論理パズルを自動合成する手法を提案し,それをバイリンガルベンチマークであるAutoLogiの開発に利用する。提案手法は,プログラムベースの検証と制御可能な難易度を特徴とし,モデルの推論能力をよりよく区別する信頼性の高い評価を可能にする。
論文参考訳（メタデータ） (2025-02-24T07:02:31Z)
Improving Deep Assertion Generation via Fine-Tuning Retrieval-Augmented Pre-trained Language Models [20.71745514142851]
RetriGenは検索強化されたディープアサーション生成アプローチである。我々はRetriGenを6つの最先端アプローチに対して評価する実験を行っている。
論文参考訳（メタデータ） (2025-02-22T04:17:04Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Boundary Value Test Input Generation Using Prompt Engineering with LLMs: Fault Detection and Coverage Analysis [3.249891166806818]
本稿では,大規模言語モデル(LLM)のホワイトボックスソフトウェアテストにおける境界値テストインプット生成における有効性を評価するためのフレームワークを提案する。本稿では, 境界値生成におけるLLMの強度と限界, 特に共通境界関連問題の検出について述べる。本研究は, 境界値テストにおけるLCMの役割について考察し, 自動テスト手法の改善のための可能性と領域の両方について考察する。
論文参考訳（メタデータ） (2025-01-24T12:54:19Z)
CorrectBench: Automatic Testbench Generation with Functional Self-Correction using LLMs for HDL Design [6.414167153186868]
機能的自己検証と自己補正を備えた自動テストベンチ生成フレームワークであるCorrectBenchを提案する。提案手法は, 88.85%の成功率で生成したテストベンチの正当性を検証できる。作業性能は, 従来よりも62.18%高く, 直接手法のパス比の約5倍である。
論文参考訳（メタデータ） (2024-11-13T10:45:19Z)
Exploring and Lifting the Robustness of LLM-powered Automated Program Repair with Metamorphic Testing [31.327835928133535]
大規模言語モデルを用いた自動プログラム修復(LAPR)技術は、最先端のバグ修正性能を達成した。実際に展開する前に、LAPR技術で堅牢性テストを実施することが不可欠である。 LAPR技術専用のメタモルフィックテスティングフレームワークであるMT-LAPRを提案する。
論文参考訳（メタデータ） (2024-10-10T01:14:58Z)
Leveraging Large Language Models for Enhancing the Understandability of Generated Unit Tests [4.574205608859157]
我々は,検索ベースのソフトウェアテストと大規模言語モデルを組み合わせたUTGenを導入し,自動生成テストケースの理解性を向上する。 UTGenテストケースで課題に取り組む参加者は、最大33%のバグを修正し、ベースラインテストケースと比較して最大20%の時間を使用できます。
論文参考訳（メタデータ） (2024-08-21T15:35:34Z)
Improving LLM-based Unit test generation via Template-based Repair [8.22619177301814]
単体テストは個々のプログラムユニットのバグを検出するのに不可欠だが、時間と労力を消費する。大規模言語モデル(LLM)は、顕著な推論と生成能力を示している。本稿では,新しい単体テスト生成法であるTestARTを提案する。
論文参考訳（メタデータ） (2024-08-06T10:52:41Z)
Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文参考訳（メタデータ） (2024-06-11T09:21:50Z)
LLM-Powered Test Case Generation for Detecting Tricky Bugs [30.82169191775785]
AIDは、少なくとも正しいプログラムをターゲットにしたテスト入力とオラクルを生成する。 TrickyBugs と EvalPlus の2つの大規模データセットに対する AID の評価を行った。その結果,AIDのリコール,精度,F1スコアは,それぞれ1.80x,2.65x,1.66xに優れていた。
論文参考訳（メタデータ） (2024-04-16T06:20:06Z)
GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。 GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文参考訳（メタデータ） (2024-02-23T10:02:01Z)
Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。 TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文参考訳（メタデータ） (2024-02-09T00:34:39Z)
Automatic Generation of Test Cases based on Bug Reports: a Feasibility Study with Large Language Models [4.318319522015101]
既存のアプローチは、単純なテスト(例えば単体テスト)や正確な仕様を必要とするテストケースを生成する。ほとんどのテスト手順は、テストスイートを形成するために人間が書いたテストケースに依存しています。大規模言語モデル(LLM)を活用し,バグレポートを入力として利用することにより,この生成の実現可能性を検討する。
論文参考訳（メタデータ） (2023-10-10T05:30:12Z)
Effective Test Generation Using Pre-trained Large Language Models and Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。 MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文参考訳（メタデータ） (2023-08-31T08:48:31Z)
Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文参考訳（メタデータ） (2023-07-28T12:38:44Z)
MAPS: A Noise-Robust Progressive Learning Approach for Source-Free Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文参考訳（メタデータ） (2023-02-09T12:06:08Z)
Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文参考訳（メタデータ） (2022-06-05T22:31:45Z)
SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文参考訳（メタデータ） (2022-03-10T00:47:46Z)
Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文参考訳（メタデータ） (2021-03-08T10:56:38Z)
Improving a State-of-the-Art Heuristic for the Minimum Latency Problem with Data Mining [69.00394670035747]
ハイブリッドメタヒューリスティックスは、オペレーション研究のトレンドとなっている。成功例は、Greedy Randomized Adaptive Search Procedures (GRASP)とデータマイニング技術を組み合わせたものだ。
論文参考訳（メタデータ） (2019-08-28T13:12:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。