論文の概要: Evaluating Developer-written Unit Test Case Reduction for Java -- A Replication Study
- arxiv url: http://arxiv.org/abs/2501.04890v1
- Date: Thu, 09 Jan 2025 00:10:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 14:00:10.918040
- Title: Evaluating Developer-written Unit Test Case Reduction for Java -- A Replication Study
- Title(参考訳): 開発者によるJavaの単体テストケース削減の評価 - レプリケーションスタディ
- Authors: Tuan D Le, Brandon Wilber, Arpit Christi,
- Abstract要約: 本研究では, 還元過程, 還元出力, 除去実体について検討する。
Javaの単体テストでは、異なるテストケース削減ツールであるReduJavatorを使ってその結果を再現します。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Abstract: Failing test case reduction can promote efficient debugging because a developer may not need to observe components that are not relevant to inducing failure. Failing test case reduction can also improve the efficiency of fault localization. These considerations have prompted researchers to study the reduction process, the reduction output, and the removed entities. Christi et al. studied test reduction using a tool called ReduSharptor for C# tests. They considered the test to be an Abstract Syntax Tree (AST). Based on that, they studied the reduction outcome and removed entities in terms of Leaf nodes and Non-Leaf nodes of the AST. They claimed that (1) leaf nodes are removed in large numbers, and (2) the probability of removal is slightly higher than non-leaf nodes. We replicate their results using a different test case reduction tool, ReduJavator, for Java unit tests. We evaluate test reduction using 30 randomly chosen bugs from the Defects4J database and 30 mutants for 6 open-source projects. Our results confirm their first claim: leaf nodes are removed in large numbers. Our results are inconclusive regarding their second claim; we cannot confirm that the probability of removal is higher for non-leaf nodes.
- Abstract(参考訳): 抽象的: テストケースの削減は、開発者が障害を引き起こすのに関係のないコンポーネントを観察する必要がないため、効率的なデバッグを促進することができる。
テストケースの低下は、フォールトローカライゼーションの効率も向上する。
これらの考察は、還元過程、還元出力、除去された物質の研究を促している。
Christi氏らは、C#テストのためにReduSharptorと呼ばれるツールを使って、テストの削減を研究した。
彼らはこのテストが抽象構文木(AST)であると考えた。
これに基づいて、ASTのリーフノードとノンリーフノードの観点から、削減結果とエンティティを除去した。
彼らは(1)葉ノードを大量に除去し、(2)葉ノードを除去する確率は非葉ノードよりもわずかに高いと主張した。
Javaの単体テストでは、異なるテストケース削減ツールであるReduJavatorを使ってその結果を再現します。
Defects4Jデータベースからランダムに選択された30のバグと、6つのオープンソースプロジェクトの30のミュータントを用いて、テストの削減を評価する。
実験の結果,葉ノードは多数除去された。
その結果,非リーフノードでは除去確率が高いという確証が得られなかった。
関連論文リスト
- Learning to Generate Unit Tests for Automated Debugging [52.63217175637201]
ユニットテスト(UT)は、コードの正確性を評価するだけでなく、大きな言語モデル(LLM)へのフィードバックを提供する上でも重要な役割を果たします。
提案するUTGenは,LLMに対して,予測出力とともにエラーを示す単体テスト入力を生成することを教える。
UTGenがUT生成ベースラインを7.59%向上させることを示す。
論文 参考訳(メタデータ) (2025-02-03T18:51:43Z) - AugmenTest: Enhancing Tests with LLM-Driven Oracles [2.159639193866661]
AugmenTestは、大規模な言語モデルを活用して、テスト中のソフトウェアの利用可能なドキュメントに基づいて、正しいオーラクルを推測するアプローチである。
AugmenTestには4つのバリエーションがある: Simple Prompt、Extended Prompt、ジェネリックプロンプト付きRAG(テスト中のクラスやメソッドのコンテキストなしで)とSimple Prompt付きRAG。
結果は、最も保守的なシナリオでは、AugmenTestのExtended PromptがSimple Promptを一貫して上回り、正しいアサーションを生成するために30%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-01-29T07:45:41Z) - Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation [61.350306618479365]
ベンチマークの漏洩は、大規模言語モデルの真のパフォーマンスの正確な評価を防ぐことができる。
この問題に対処するため,ITD(Inference-Time Decontamination)を提案する。
ITDは、GSM8Kで22.9%、MMLUで19.0%の膨張精度を低下させる。
論文 参考訳(メタデータ) (2024-06-20T04:35:59Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Validity-Preserving Delta Debugging via Generator Trace Reduction [14.24086822861706]
GReduceは、削減された有効なテスト入力を出力するジェネレータ上の他の実行を検索する。
GReduceはPersesやT-PDDなど最先端の構文ベースのリデューサを大幅に上回っている。
論文 参考訳(メタデータ) (2024-02-07T07:12:27Z) - Chem-FINESE: Validating Fine-Grained Few-shot Entity Extraction through Text Reconstruction [68.76468780148734]
化学領域における微粒な数発の実体抽出は、2つの固有の課題に直面している。
Chem-FINESEには、Seq2seqエンティティ抽出器とSeq2seq自己検証モジュールの2つのコンポーネントがある。
新たに提案したフレームワークは,それぞれ8.26%,6.84%の絶対F1スコアゲインに寄与している。
論文 参考訳(メタデータ) (2024-01-18T18:20:15Z) - SUT: Active Defects Probing for Transcompiler Models [24.01532199512389]
我々は、プログラミング言語翻訳のための新しいメトリクスを導入し、これらのメトリクスは基本的な構文エラーに対処する。
実験によると、ChatGPTのような強力なモデルでさえ、これらの基本的な単体テストで間違いを犯している。
論文 参考訳(メタデータ) (2023-10-22T07:16:02Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - Selecting Learnable Training Samples is All DETRs Need in Crowded
Pedestrian Detection [72.97320260601347]
混雑した歩行者検出では, サンプル選択法が不適切であるため, DETRの性能は相変わらず不満足である。
制約誘導ラベル割り当てスキーム(CGLA)からなる群集歩行者のサンプル選択を提案する。
実験の結果,提案したSSCPは推論のオーバーヘッドを発生させることなく,ベースラインを効果的に改善することがわかった。
論文 参考訳(メタデータ) (2023-05-18T08:28:01Z) - Large Language Models are Few-shot Testers: Exploring LLM-based General
Bug Reproduction [14.444294152595429]
問題によりオープンソースリポジトリに追加されたテストの数は、対応するプロジェクトテストスイートサイズの約28%であった。
本稿では,Large Language Models (LLMs) を用いたLIBROを提案する。
LIBROの評価は、広く研究されているDefects4Jベンチマークにおいて、全ての研究ケースの33%で障害再現テストケースを生成することができることを示している。
論文 参考訳(メタデータ) (2022-09-23T10:50:47Z) - Active-LATHE: An Active Learning Algorithm for Boosting the Error
Exponent for Learning Homogeneous Ising Trees [75.93186954061943]
我々は、$rho$が少なくとも0.8$である場合に、エラー指数を少なくとも40%向上させるアルゴリズムを設計し、分析する。
我々の分析は、グラフの一部により多くのデータを割り当てるために、微小だが検出可能なサンプルの統計的変動を巧みに活用することに基づいている。
論文 参考訳(メタデータ) (2021-10-27T10:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。