論文の概要: Enhancing Automated Program Repair via Faulty Token Localization and Quality-Aware Patch Refinement
- arxiv url: http://arxiv.org/abs/2511.18001v1
- Date: Sat, 22 Nov 2025 10:05:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.578587
- Title: Enhancing Automated Program Repair via Faulty Token Localization and Quality-Aware Patch Refinement
- Title(参考訳): 故障トークンのローカライゼーションと品質対応型パッチリファインメントによる自動プログラム修復の強化
- Authors: Jiaolong Kong, Xiaofei Xie, Yiheng Xiong, Yuekun Wang, Jian Wang,
- Abstract要約: TokenRepairは、プログラム修復のための新しい2段階の洗練フレームワークである。
内部リフレクションを統合して、潜在的な欠陥のあるトークンをローカライズし、外部からのフィードバックで品質を意識したパッチ修正を行う。
TokenRepairは、Defects4J 1.2の88のバグとHumanEval-Javaの139のバグを正しく修正することで、最先端の修復パフォーマンスを新たに達成している。
- 参考スコア(独自算出の注目度): 15.978451025074962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently demonstrated strong potential for automated program repair (APR). However, existing LLM-based techniques primarily rely on coarse-grained external feedback (e.g.,test results) to guide iterative patch generation, while lacking fine-grained internal signals that reveal why a patch fails or which parts of the generated code are likely incorrect. This limitation often leads to inefficient refinement, error propagation, and suboptimal repair performance. In this work, we propose TokenRepair, a novel two-level refinement framework that enhances APR by integrating internal reflection for localizing potentially faulty tokens with external feedback for quality-aware patch refinement. Specifically, TokenRepair first performs internal reflection by analyzing context-aware token-level uncertainty fluctuations to identify suspicious or low-confidence tokens within a patch. It then applies Chain-of-Thought guided rewriting to refine only these localized tokens, enabling targeted and fine-grained correction. To further stabilize the iterative repair loop, TokenRepair incorporates a quality-aware external feedback mechanism that evaluates patch quality and filters out low-quality candidates before refinement. Experimental results show that TokenRepair achieves new state-of-the-art repair performance, correctly fixing 88 bugs on Defects4J 1.2 and 139 bugs on HumanEval-Java, demonstrating substantial improvements ranging from 8.2% to 34.9% across all models on Defects4J 1.2 and from 3.3% to 16.1% on HumanEval-Java.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、自動プログラム修復(APR)の可能性を強く示している。
しかし、既存のLCMベースの技術は、主に、反復的なパッチ生成を誘導するための粗い外部フィードバック(例えば、テスト結果)に依存しているが、パッチが失敗した理由や生成されたコードの一部が正しくないことを示す、きめ細かい内部信号は欠如している。
この制限は、しばしば非効率な精細化、エラー伝播、最適下修理性能をもたらす。
本研究では,APRを改良する新たな2段階改良フレームワークであるTokenRepairを提案する。
具体的には、TokenRepairはまず、コンテキスト対応のトークンレベルの不確実性変動を分析して内部リフレクションを行い、パッチ内の疑わしいトークンや低信頼のトークンを識別する。
次に、Chain-of-Thoughtガイドによる書き換えを適用して、これらのローカライズされたトークンのみを洗練し、ターゲットときめ細かい修正を可能にする。
反復的な修復ループをさらに安定化させるために、TokenRepairは、パッチの品質を評価し、改善前に品質の低い候補をフィルタリングする品質を意識した外部フィードバックメカニズムを組み込んでいる。
実験の結果、TokenRepairは、Defects4J 1.2の88のバグとHumanEval-Javaの139のバグを正しく修正し、Defects4J 1.2の全モデルで8.2%から34.9%、HumanEval-Javaで3.3%から16.1%の大幅な改善が見られた。
関連論文リスト
- Refactoring $\neq$ Bug-Inducing: Improving Defect Prediction with Code Change Tactics Analysis [54.361900378970134]
Just-in-time defect prediction (JIT-DP) は、早期にソフトウェア欠陥を引き起こすコード変更の可能性を予測することを目的としている。
これまでの研究は、その頻度にもかかわらず、評価フェーズと方法論フェーズの両方でコードを無視してきた。
JIT-Defects4Jデータセットのラベリング精度を13.7%向上させるコードと伝播を分類するためのCode chAnge Tactics (CAT)解析を提案する。
論文 参考訳(メタデータ) (2025-07-25T23:29:25Z) - Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [79.74676890436174]
本稿では,障害の局所化と修復のためのオラクルとして形式仕様を用いたDafny用のAPRツールを提案する。
プログラム内の各ステートメントの状態を決定するために、Hoareロジックの使用を含む一連のステップを通じて、障害をローカライズします。
また, GPT-4o miniが74.18%と高い修理成功率を示した。
論文 参考訳(メタデータ) (2025-07-04T15:36:12Z) - Repair Ingredients Are All You Need: Improving Large Language Model-Based Program Repair via Repair Ingredients Search [41.50068103527948]
ReinFixは、バグ修正の推論と解決フェーズを通じて、修復材料を検索するフレームワークである。
ソリューションフェーズでは、ReinFixは、同様のバグパターンで過去のバグ修正から外部の要素を検索する。
2つの人気のあるベンチマークによる評価は、SOTAベースラインに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2025-06-29T06:02:11Z) - The Art of Repair: Optimizing Iterative Program Repair with Instruction-Tuned Models [48.073219761367184]
複数出力の生成と複数ラウンドの反復のバランスをとるAPRパイプラインについて検討する。
3つのサイズ(1K, 30K, 65K)と2つのテクニック(フルファインチューニングとLoRA)を持つAPRデータセット上で各モデルを微調整する。
その結果,微調整データセットのごく一部(1%)しか使用せず,最大78%の改善が達成できた。
論文 参考訳(メタデータ) (2025-05-05T18:06:51Z) - MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - Hybrid Automated Program Repair by Combining Large Language Models and Program Analysis [12.7034916462208]
自動プログラム修復(APR)は、人間の開発者のバグ修正プロセスを合理化する可能性から、大きな注目を集めている。
本稿ではGIANTREPAIRと呼ばれる革新的なAPR手法を紹介する。
この知見に基づいて、GIANTREPAIRはまず、LLM生成したパッチからパッチスケルトンを構築して、パッチ空間を閉じ込め、その後、特定のプログラムに適した高品質なパッチを生成する。
論文 参考訳(メタデータ) (2024-06-03T05:05:12Z) - Boosting Redundancy-based Automated Program Repair by Fine-grained Pattern Mining [18.7107522872479]
本稿では,効果的なパッチ生成を導くための2段階のパターンマイニングプロセスを含むRepattという新しい修復手法を提案する。
我々は、広く使われているDefects4Jベンチマークの実験を行い、Repattを10の最先端のAPRアプローチと比較した。
論文 参考訳(メタデータ) (2023-12-26T08:42:32Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。