Fugu-MT 論文翻訳(概要): HotBugs.jar: A Benchmark of Hot Fixes for Time-Critical Bugs

論文の概要: HotBugs.jar: A Benchmark of Hot Fixes for Time-Critical Bugs

arxiv url: http://arxiv.org/abs/2510.07529v1
Date: Wed, 08 Oct 2025 20:46:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-10 17:54:14.724425
Title: HotBugs.jar: A Benchmark of Hot Fixes for Time-Critical Bugs
Title（参考訳）: HotBugs.jar: タイムクリティカルなバグに対するホットフィックスのベンチマーク
Authors: Carol Hanna, Federica Sarro, Mark Harman, Justyna Petke,
Abstract要約: 実際のホットフィックスに特化した最初のデータセットであるHotBugs.jarを紹介します。 10のアクティブなApacheプロジェクトの最初のマイニングから、190万以上のコミットと150万件のイシューレポートから、当社のホットフィックス基準を満たした746のソフトウェアパッチを特定しました。 Bugs.jarフレームワーク上に構築されたHotBugs.jarは、110の再現可能なケースを統合し、手動で検証された679のホットフィックスをすべて利用できるようにする。
参考スコア（独自算出の注目度）: 12.85319068967294
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Hot fixes are urgent, unplanned changes deployed to production systems to address time-critical issues. Despite their importance, no existing evaluation benchmark focuses specifically on hot fixes. We present HotBugs.jar, the first dataset dedicated to real-world hot fixes. From an initial mining of 10 active Apache projects totaling over 190K commits and 150K issue reports, we identified 746 software patches that met our hot-fix criteria. After manual evaluation, 679 were confirmed as genuine hot fixes, of which 110 are reproducible using a test suite. Building upon the Bugs.jar framework, HotBugs.jar integrates these 110 reproducible cases and makes available all 679 manually validated hot fixes, each enriched with comprehensive metadata to support future research. Each hot fix was systematically identified using Jira issue data, validated by independent reviewers, and packaged in a reproducible format with buggy and fixed versions, test suites, and metadata. HotBugs.jar has already been adopted as the official challenge dataset for the Search-Based Software Engineering (SBSE) Conference Challenge Track, demonstrating its immediate impact. This benchmark enables the study and evaluation of tools for rapid debugging, automated repair, and production-grade resilience in modern software systems to drive research in this essential area forward.
Abstract（参考訳）: ホットフィックスは、時間クリティカルな問題に対処するために運用システムにデプロイされる、緊急かつ計画外の変更である。その重要性にもかかわらず、ホットフィックスに特化した既存の評価ベンチマークは存在しない。実際のホットフィックスに特化した最初のデータセットであるHotBugs.jarを紹介します。 10のアクティブなApacheプロジェクトの最初のマイニングから、190万以上のコミットと150万件のイシューレポートから、当社のホットフィックス基準を満たした746のソフトウェアパッチを特定しました。手動による評価の結果、679件が真のホットフィックスとして確認され、そのうち110件がテストスイートで再現可能となった。 Bugs.jarフレームワーク上に構築されているHotBugs.jarは、110の再現可能なケースを統合し、手作業で検証された679のホットフィックスをすべて利用できるようにする。各ホットフィックスは、Jiraイシューデータを使用して体系的に識別され、独立したレビュアーによって検証され、バグや修正バージョン、テストスイート、メタデータを備えた再現可能なフォーマットでパッケージ化された。 HotBugs.jarはすでに、検索ベースソフトウェアエンジニアリング(SBSE)カンファレンスチャレンジトラックの公式チャレンジデータセットとして採用されており、その直接的な影響を示している。このベンチマークは、最新のソフトウェアシステムにおいて、迅速なデバッグ、自動修復、プロダクショングレードのレジリエンスのためのツールの研究と評価を可能にし、この本質的な領域の研究を前進させる。

関連論文リスト

Diagnosing and Addressing Pitfalls in KG-RAG Datasets: Toward More Reliable Benchmarking [63.84117489519164]
知識グラフ質問回答システムは、複雑なマルチホップ推論を評価するために高品質なベンチマークに依存している。広く使われているにもかかわらず、WebQSPやCWQのような一般的なデータセットは、重要な品質問題に悩まされている。我々はこれらの落とし穴を体系的に解決するLLM-in-the-loopフレームワークであるKGQAGenを紹介する。本研究は,KGQA評価を推し進めるスケーラブルなフレームワークとして,より厳密なベンチマーク構築とKGQAGenの位置づけを提唱する。
論文参考訳（メタデータ） (2025-05-29T14:44:52Z)
DR.FIX: Automatically Fixing Data Races at Industry Scale [4.079738222767962]
Dr.Fixは、現実世界の設定でデータレースの修正を生成するツールである。 Dr.FixはUberの開発者に統合され、実用性を実証している。
論文参考訳（メタデータ） (2025-04-22T06:56:15Z)
UTFix: Change Aware Unit Test Repairing using LLM [24.12850207529614]
UTFixは, 焦点法が変化した場合に, 単体検査を修復するための新しい手法である。このアプローチでは,静的コードスライスや動的コードスライス,障害メッセージなどのコンテキスト情報を提供することで,言語モデルを利用してユニットテストを修復する。私たちの知る限りでは、これはPythonプロジェクトの進化におけるユニットテストに焦点を当てた初めての総合的な研究です。
論文参考訳（メタデータ） (2025-03-19T06:10:03Z)
Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文参考訳（メタデータ） (2024-06-11T09:21:50Z)
Hot Fixing Software: A Comprehensive Review of Terminology, Techniques, and Applications [13.35396976396198]
我々はホットフィックスに関する研究の総合的な文献レビューを行う。我々は,この話題に対処した分野,用語における不整合,文学のギャップ,今後の研究の方向性について強調する。既存の用語の統合、ホットフィックスのベンチマークセットの確立、ホットフィックスのコストと頻度の調査、検出、緩和、展開のエンドツーエンド自動化の可能性の調査など、多くの方向がホットフィックス研究を前進させることができる。
論文参考訳（メタデータ） (2024-01-17T15:28:03Z)
RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。 RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。 RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文参考訳（メタデータ） (2023-09-12T08:52:56Z)
FixEval: Execution-based Evaluation of Program Fixes for Programming Problems [23.987104440395576]
FixEvalは、競合するプログラミング問題とそれに対応する修正に対して、バグの多いコードを提出するベンチマークです。 FixEvalは、モデル生成プログラム修正の正確性を評価するために、ユニットテストの広範なコレクションを提供する。実験の結果,マッチングに基づくメトリクスは,モデル生成プログラムの修正を正確に反映しないことがわかった。
論文参考訳（メタデータ） (2022-06-15T20:18:43Z)
FRUIT: Faithfully Reflecting Updated Information in Text [106.40177769765512]
FRUIT(FruIT)で更新情報を反映した新しい生成タスクについて紹介する。我々の分析は、記事の更新が可能なモデルを開発するには、ニューラルジェネレーションモデルに新しい能力が必要であることを示している。
論文参考訳（メタデータ） (2021-12-16T05:21:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。