論文の概要: From Empirical Evaluation to Context-Aware Enhancement: Repairing Regression Errors with LLMs
- arxiv url: http://arxiv.org/abs/2506.13182v1
- Date: Mon, 16 Jun 2025 07:49:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.698144
- Title: From Empirical Evaluation to Context-Aware Enhancement: Repairing Regression Errors with LLMs
- Title(参考訳): 経験的評価から文脈認識の強化へ:LLMによる回帰誤差の修復
- Authors: Anh Ho, Thanh Le-Cong, Bach Le, Christine Rizkallah,
- Abstract要約: Javaレグレッションバグに関するAPRテクニックを実証研究する。
RegMiner4APRは、広く使用されている32の現実世界のJava GitHubリポジトリから収集されたJava回帰バグのベンチマークである。
以上の結果から,従来のAPRツールはバグ修正に失敗し,LSMベースのAPRアプローチは有望な可能性を秘めていることがわかった。
- 参考スコア(独自算出の注目度): 1.078085076551721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: [...] Since then, various APR approaches, especially those leveraging the power of large language models (LLMs), have been rapidly developed to fix general software bugs. Unfortunately, the effectiveness of these advanced techniques in the context of regression bugs remains largely unexplored. This gap motivates the need for an empirical study evaluating the effectiveness of modern APR techniques in fixing real-world regression bugs. In this work, we conduct an empirical study of APR techniques on Java regression bugs. To facilitate our study, we introduce RegMiner4APR, a high-quality benchmark of Java regression bugs integrated into a framework designed to facilitate APR research. The current benchmark includes 99 regression bugs collected from 32 widely used real-world Java GitHub repositories. We begin by conducting an in-depth analysis of the benchmark, demonstrating its diversity and quality. Building on this foundation, we empirically evaluate the capabilities of APR to regression bugs by assessing both traditional APR tools and advanced LLM-based APR approaches. Our experimental results show that classical APR tools fail to repair any bugs, while LLM-based APR approaches exhibit promising potential. Motivated by these results, we investigate impact of incorporating bug-inducing change information into LLM-based APR approaches for fixing regression bugs. Our results highlight that this context-aware enhancement significantly improves the performance of LLM-based APR, yielding 1.8x more successful repairs compared to using LLM-based APR without such context.
- Abstract(参考訳): 以来、様々なAPRアプローチ、特に大規模言語モデル(LLM)のパワーを活用するアプローチが、一般的なソフトウェアバグを修正するために急速に開発されてきた。
残念なことに、レグレッションバグの文脈におけるこれらの高度なテクニックの有効性はほとんど解明されていない。
このギャップは、現実の回帰バグを修正する上での現代のAPR技術の有効性を評価する実証的研究の必要性を動機付けている。
本研究では,Javaの回帰バグに対するAPR手法の実証的研究を行う。
我々は,APR研究を促進するために設計されたフレームワークに組み込まれたJava回帰バグの高品質なベンチマークであるRegMiner4APRを紹介した。
現在のベンチマークには、広く使用されている32のJava GitHubリポジトリから収集された99のレグレッションバグが含まれている。
まず、ベンチマークの詳細な分析を行い、その多様性と品質を実証する。
本研究では,従来の APR ツールと高度な LLM ベースの APR アプローチの両方を評価することにより,APR の回帰バグに対する能力を実証的に評価する。
実験の結果,従来の APR ツールではバグの修復に失敗し,LSM ベースの APR アプローチでは有望な可能性を示した。
これらの結果から, 回帰バグの修正のために, LLMベースのAPRアプローチにバグ誘発変化情報を導入することの影響について検討した。
以上の結果から, この文脈認識による拡張により, LLMベースのAPRの性能が大幅に向上し, LLMベースのAPRに比べて1.8倍の精度で修復に成功したことが示唆された。
関連論文リスト
- An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Hybrid Automated Program Repair by Combining Large Language Models and Program Analysis [12.7034916462208]
自動プログラム修復(APR)は、人間の開発者のバグ修正プロセスを合理化する可能性から、大きな注目を集めている。
本稿ではGIANTREPAIRと呼ばれる革新的なAPR手法を紹介する。
この知見に基づいて、GIANTREPAIRはまず、LLM生成したパッチからパッチスケルトンを構築して、パッチ空間を閉じ込め、その後、特定のプログラムに適した高品質なパッチを生成する。
論文 参考訳(メタデータ) (2024-06-03T05:05:12Z) - A Case Study of LLM for Automated Vulnerability Repair: Assessing Impact of Reasoning and Patch Validation Feedback [7.742213291781287]
提案するVRpilotは,推論とパッチ検証フィードバックに基づく脆弱性修復手法である。
以上の結果から,VRpilotはCとJavaのベースライン技術よりも平均14%と7.6%の正確なパッチを生成することがわかった。
論文 参考訳(メタデータ) (2024-05-24T16:29:48Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Practical Program Repair via Preference-based Ensemble Strategy [28.176710503313895]
本稿では、異なるバグを修復するためのAPRツールのランク付けを行うためのPreference-based Ensemble Program repair framework(P-EPR)を提案する。
P-EPRは、修復パターンを利用した最初の非学習ベースのAPRアンサンブル法である。
実験の結果,P-EPRは柔軟性と有効性の両方において既存の戦略よりも優れていた。
論文 参考訳(メタデータ) (2023-09-15T07:23:04Z) - Revisiting the Plastic Surgery Hypothesis via Large Language Models [13.488029636215089]
本稿では,大規模言語モデルを直接利用するFitRepairと,ドメイン固有の2つの微調整戦略と,より強力なAPR戦略とを組み合わせたFitRepairを提案する。
広く研究されているDefects4j 1.2と2.0データセットに関する実験は、FitRepairが89と44のバグを修正したことを示している。
論文 参考訳(メタデータ) (2023-03-18T20:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。