論文の概要: Reproducible Automated Program Repair Is Hard -- Experiences With the Defects4J Dataset
- arxiv url: http://arxiv.org/abs/2604.26674v1
- Date: Wed, 29 Apr 2026 13:46:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.425426
- Title: Reproducible Automated Program Repair Is Hard -- Experiences With the Defects4J Dataset
- Title(参考訳): 再現可能な自動プログラム修復は難しい -- Defects4Jデータセットを使った経験
- Authors: Adam Krafczyk, Klaus Schmid,
- Abstract要約: Google Scholarによると、広く使われているベンチマークDefects4Jについて調査する。
APR設定の厳格な要件でテストスイートを実行すると、欠陥の180(21.6)は評価実験には適さないことがわかった。
59(7.1の欠陥)が追加され、コードベースから1つのステートメントを削除することですべてのテストケースが通過するが、人間によるパッチはコードを削除しない。
- 参考スコア(独自算出の注目度): 0.45835414225547183
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In the research of automated program repair (APR), benchmark datasets consisting of known defects in combination with test suites that indicate the defects are of high importance. They allow for an evidence-based comparison of different APR approaches. In our own work on APR we found significant challenges when working with widely used defect datasets, which go beyond mere repeatability of defects via test cases. We summarize these identified challenges and related lessons learned to bring them to the attention of the APR community and quantify the potential impact of them. In particular, we investigate the widely used benchmark Defects4J, which has according to Google Scholar over 1,800 citations. It consists of 835 defects from 17 open-source Java projects; a hand-curated collection of defects, test suites that clearly indicate the defect, and human patches where any unrelated changes are removed. We find that, when executing the test suites with strict requirements for reproducibility in APR settings (beyond merely reproducing the defect via test cases), 180 (21.6 %) of the defects are not suitable for evaluation experiments. Further, we find that an additional 59 (7.1 %) defects have test suites that are obviously under-specified, as deleting a single statement from the code base makes all test cases pass, although the human-written patch does not only delete code. Our contributions are: a systematic collection of requirements for defect datasets for APR beyond traditional reproducibility of defects, a description of practical experiences and quantitative analysis of problems with the Defects4J dataset, as well as an implementation of an evaluation framework for APR tools for Java programs. This evaluation framework does stricter checking for indications of inadequate test suites, to avoid otherwise unnoticed problems in the test suite, such as flaky tests.
- Abstract(参考訳): 自動プログラム修復(APR)の研究では、既知の欠陥とテストスイートを組み合わせたベンチマークデータセットが重要視されている。
それらは異なるAPRアプローチのエビデンスベースの比較を可能にする。
APRに関する私たちの自身の研究で、広く使用されている欠陥データセットを扱う際の重大な課題を見つけました。
我々は、これらの特定された課題と関連する教訓を要約し、それらをAPRコミュニティの注意に向け、それらが与える潜在的な影響を定量化する。
特に,Google Scholarによると,広く使用されているベンチマークDefects4Jについて,1,800以上の引用がある。
17のオープンソースプロジェクトからの835の欠陥、手作業による欠陥の収集、欠陥を明確に示すテストスイート、無関係な変更が削除された人間のパッチで構成されている。
APR設定で再現性に関する厳格な要件でテストスイートを実行する場合(テストケース経由で欠陥を再現する以外に)、180 (21.6 %)の欠陥は評価実験には適さないことがわかった。
さらに、59 (7.1 %) の欠陥が、コードベースから1つのステートメントを削除することですべてのテストケースが通過するので、明らかに不特定なテストスイートを持っていることが分かりました。
私たちのコントリビューションは、従来の欠陥の再現性を超えた、APRの欠陥データセットの体系的な要件の収集、Defects4Jデータセットの問題の実践経験と定量的分析、およびJavaプログラムのためのAPRツールの評価フレームワークの実装です。
この評価フレームワークは、不適切なテストスイートの表示を厳格にチェックする。
関連論文リスト
- Are Benchmark Tests Strong Enough? Mutation-Guided Diagnosis and Augmentation of Regression Suites [49.16055123488827]
十分に強力なテストスイートは、報告された成功率を膨らませながら、妥当だが意味的に正しくないパッチを認めることができる。
STINGは、意味的に変化するプログラムの変種を診断ストレス要因として利用する、ターゲットテスト拡張のためのフレームワークである。
STINGは211インスタンスにまたがる1014の検証テストを生成し、パッチリージョンラインとブランチカバレッジを10.8%、9.5%向上させた。
論文 参考訳(メタデータ) (2026-04-02T01:13:40Z) - HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam [63.84155758655084]
HumanityのLast Exam (HLE)は、フロンティアの大規模言語モデルを評価するために広く使われているベンチマークである。
HLE-Verifiedは,透過的検証プロトコルときめ細かい誤り分類法を備えたHLEの検証および改訂版である。
我々は,HLEとHLE-Verifiedの7つの最先端言語モデルを評価し,平均7~10ポイントの絶対精度を観測した。
論文 参考訳(メタデータ) (2026-02-15T02:50:15Z) - Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [79.74676890436174]
本稿では,障害の局所化と修復のためのオラクルとして形式仕様を用いたDafny用のAPRツールを提案する。
プログラム内の各ステートメントの状態を決定するために、Hoareロジックの使用を含む一連のステップを通じて、障害をローカライズします。
また, GPT-4o miniが74.18%と高い修理成功率を示した。
論文 参考訳(メタデータ) (2025-07-04T15:36:12Z) - What You See Is What You Get: Attention-based Self-guided Automatic Unit Test Generation [3.8244417073114003]
本稿では,AUGER(Attention-based Self-guided Automatic Unit Test GenERation)アプローチを提案する。
AUGERには欠陥検出とエラートリガーという2つのステージがある。
F1スコアと欠陥検出精度で4.7%から35.3%向上した。
ユニットテスト生成において、最先端(SOTA)アプローチよりも23から84のエラーを発生させることができる。
論文 参考訳(メタデータ) (2024-12-01T14:28:48Z) - ContrastRepair: Enhancing Conversation-Based Automated Program Repair
via Contrastive Test Case Pairs [23.419180504723546]
ContrastRepairは、対照的なテストペアを提供することで、会話駆動型APRを強化する、新しいAPRアプローチである。
Defects4j、QuixBugs、HumanEval-Javaなど、複数のベンチマークデータセット上でContrastRepairを評価する。
論文 参考訳(メタデータ) (2024-03-04T12:15:28Z) - Automated Test Case Repair Using Language Models [0.5708902722746041]
欠陥のないテストケースは、テストスイートの品質を低下させ、ソフトウェア開発プロセスを破壊します。
テストケースの自動修復に事前訓練されたコード言語モデルを活用する新しいアプローチであるTaRGETを提案する。
TaRGETは、テスト修復を言語翻訳タスクとして扱い、言語モデルを微調整するために2段階のプロセスを使用する。
論文 参考訳(メタデータ) (2024-01-12T18:56:57Z) - Automatic Generation of Test Cases based on Bug Reports: a Feasibility
Study with Large Language Models [4.318319522015101]
既存のアプローチは、単純なテスト(例えば単体テスト)や正確な仕様を必要とするテストケースを生成する。
ほとんどのテスト手順は、テストスイートを形成するために人間が書いたテストケースに依存しています。
大規模言語モデル(LLM)を活用し,バグレポートを入力として利用することにより,この生成の実現可能性を検討する。
論文 参考訳(メタデータ) (2023-10-10T05:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。