論文の概要: From Empirical Evaluation to Context-Aware Enhancement: Repairing Regression Errors with LLMs
- arxiv url: http://arxiv.org/abs/2506.13182v1
- Date: Mon, 16 Jun 2025 07:49:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.698144
- Title: From Empirical Evaluation to Context-Aware Enhancement: Repairing Regression Errors with LLMs
- Title(参考訳): 経験的評価から文脈認識の強化へ:LLMによる回帰誤差の修復
- Authors: Anh Ho, Thanh Le-Cong, Bach Le, Christine Rizkallah,
- Abstract要約: Javaレグレッションバグに関するAPRテクニックを実証研究する。
RegMiner4APRは、広く使用されている32の現実世界のJava GitHubリポジトリから収集されたJava回帰バグのベンチマークである。
以上の結果から,従来のAPRツールはバグ修正に失敗し,LSMベースのAPRアプローチは有望な可能性を秘めていることがわかった。
- 参考スコア(独自算出の注目度): 1.078085076551721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: [...] Since then, various APR approaches, especially those leveraging the power of large language models (LLMs), have been rapidly developed to fix general software bugs. Unfortunately, the effectiveness of these advanced techniques in the context of regression bugs remains largely unexplored. This gap motivates the need for an empirical study evaluating the effectiveness of modern APR techniques in fixing real-world regression bugs. In this work, we conduct an empirical study of APR techniques on Java regression bugs. To facilitate our study, we introduce RegMiner4APR, a high-quality benchmark of Java regression bugs integrated into a framework designed to facilitate APR research. The current benchmark includes 99 regression bugs collected from 32 widely used real-world Java GitHub repositories. We begin by conducting an in-depth analysis of the benchmark, demonstrating its diversity and quality. Building on this foundation, we empirically evaluate the capabilities of APR to regression bugs by assessing both traditional APR tools and advanced LLM-based APR approaches. Our experimental results show that classical APR tools fail to repair any bugs, while LLM-based APR approaches exhibit promising potential. Motivated by these results, we investigate impact of incorporating bug-inducing change information into LLM-based APR approaches for fixing regression bugs. Our results highlight that this context-aware enhancement significantly improves the performance of LLM-based APR, yielding 1.8x more successful repairs compared to using LLM-based APR without such context.
- Abstract(参考訳): 以来、様々なAPRアプローチ、特に大規模言語モデル(LLM)のパワーを活用するアプローチが、一般的なソフトウェアバグを修正するために急速に開発されてきた。
残念なことに、レグレッションバグの文脈におけるこれらの高度なテクニックの有効性はほとんど解明されていない。
このギャップは、現実の回帰バグを修正する上での現代のAPR技術の有効性を評価する実証的研究の必要性を動機付けている。
本研究では,Javaの回帰バグに対するAPR手法の実証的研究を行う。
我々は,APR研究を促進するために設計されたフレームワークに組み込まれたJava回帰バグの高品質なベンチマークであるRegMiner4APRを紹介した。
現在のベンチマークには、広く使用されている32のJava GitHubリポジトリから収集された99のレグレッションバグが含まれている。
まず、ベンチマークの詳細な分析を行い、その多様性と品質を実証する。
本研究では,従来の APR ツールと高度な LLM ベースの APR アプローチの両方を評価することにより,APR の回帰バグに対する能力を実証的に評価する。
実験の結果,従来の APR ツールではバグの修復に失敗し,LSM ベースの APR アプローチでは有望な可能性を示した。
これらの結果から, 回帰バグの修正のために, LLMベースのAPRアプローチにバグ誘発変化情報を導入することの影響について検討した。
以上の結果から, この文脈認識による拡張により, LLMベースのAPRの性能が大幅に向上し, LLMベースのAPRに比べて1.8倍の精度で修復に成功したことが示唆された。
関連論文リスト
- APRMCTS: Improving LLM-based Automated Program Repair with Iterative Tree Search [6.314858275160081]
APRMCTS はモンテカルロ木探索 (MCTS) をパッチ探索に取り入れ、探索されたパッチのグローバル評価を行い、改良と生成のために最も有望なパッチを選択する。
Defects4Jの835のバグに関する実験では、GPT-3.5と統合すると、APRMCTSは合計201のバグを修正でき、すべての最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2025-07-02T15:44:12Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。
このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。
実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文 参考訳(メタデータ) (2025-02-16T16:31:00Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。
このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。
本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文 参考訳(メタデータ) (2024-06-29T17:16:04Z) - Hybrid Automated Program Repair by Combining Large Language Models and Program Analysis [12.7034916462208]
自動プログラム修復(APR)は、人間の開発者のバグ修正プロセスを合理化する可能性から、大きな注目を集めている。
本稿ではGIANTREPAIRと呼ばれる革新的なAPR手法を紹介する。
この知見に基づいて、GIANTREPAIRはまず、LLM生成したパッチからパッチスケルトンを構築して、パッチ空間を閉じ込め、その後、特定のプログラムに適した高品質なパッチを生成する。
論文 参考訳(メタデータ) (2024-06-03T05:05:12Z) - A Case Study of LLM for Automated Vulnerability Repair: Assessing Impact of Reasoning and Patch Validation Feedback [7.742213291781287]
提案するVRpilotは,推論とパッチ検証フィードバックに基づく脆弱性修復手法である。
以上の結果から,VRpilotはCとJavaのベースライン技術よりも平均14%と7.6%の正確なパッチを生成することがわかった。
論文 参考訳(メタデータ) (2024-05-24T16:29:48Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Practical Program Repair via Preference-based Ensemble Strategy [28.176710503313895]
本稿では、異なるバグを修復するためのAPRツールのランク付けを行うためのPreference-based Ensemble Program repair framework(P-EPR)を提案する。
P-EPRは、修復パターンを利用した最初の非学習ベースのAPRアンサンブル法である。
実験の結果,P-EPRは柔軟性と有効性の両方において既存の戦略よりも優れていた。
論文 参考訳(メタデータ) (2023-09-15T07:23:04Z) - Revisiting the Plastic Surgery Hypothesis via Large Language Models [13.488029636215089]
本稿では,大規模言語モデルを直接利用するFitRepairと,ドメイン固有の2つの微調整戦略と,より強力なAPR戦略とを組み合わせたFitRepairを提案する。
広く研究されているDefects4j 1.2と2.0データセットに関する実験は、FitRepairが89と44のバグを修正したことを示している。
論文 参考訳(メタデータ) (2023-03-18T20:33:46Z) - Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing
Regressions In NLP Model Updates [68.09049111171862]
この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に重点を置いている。
回帰フリーモデル更新を制約付き最適化問題に定式化する。
モデルアンサンブルが回帰を減らす方法を実証的に分析します。
論文 参考訳(メタデータ) (2021-05-07T03:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。