論文の概要: Input Reduction Enhanced LLM-based Program Repair
- arxiv url: http://arxiv.org/abs/2507.15251v1
- Date: Mon, 21 Jul 2025 05:26:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.264743
- Title: Input Reduction Enhanced LLM-based Program Repair
- Title(参考訳): インプットリダクションによるLDM型プログラム修復
- Authors: Boyang Yang, Luyao Ren, Xin Yin, Jiadong Ren, Haoye Tian, Shunfu Jin,
- Abstract要約: テスト入力は失敗の根本原因の推論に不可欠です。
テストインプットがプロンプトで広まれば、これは"lost-in-the-middle"問題を引き起こし、修復性能を損なう可能性がある。
本稿では,テストインプットを自動的に削減し,フェール誘導動作を維持したAPRアプローチであるReduceeFixを提案する。
- 参考スコア(独自算出の注目度): 2.098274800451098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown great potential in Automated Program Repair (APR). Test inputs, being crucial for reasoning the root cause of failures, are always included in the prompt for LLM-based APR. Unfortunately, LLMs struggle to retain key information in long prompts. When the test inputs are extensive in the prompt, this may trigger the "lost-in-the-middle" issue, compromising repair performance. To address this, we propose ReduceFix, an LLM-based APR approach with a built-in component that automatically reduces test inputs while retaining their failure-inducing behavior. ReduceFix prompts an LLM to generate a reducer that minimizes failure-inducing test inputs without human effort, and then feeds the reduced failure-inducing inputs to guide patch generation. For targeted evaluation, we constructed LFTBench, the first long-input APR benchmark with 200 real bugs from 20 programming tasks, each paired with a failure-inducing input whose median size is 1 MB. On this benchmark, ReduceFix shrinks inputs by 89.1% on average and improves overall pass@10 by up to 53.8% relative to a prompt that includes the original test, and by 17.6% compared with omitting the test entirely. Adding the same reduction step to ChatRepair increases its fix rate by 21.3% without other changes. Ablation studies further highlight the impact of input length and compressed failure information on repair success. These results underscore that automatically reducing failing inputs is a practical and powerful complement to LLM-based APR, significantly improving its scalability and effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自動プログラム修復(APR)において大きな可能性を示している。
LLMベースのAPRのプロンプトには、障害の根本原因の推論に不可欠なテスト入力が常に含まれている。
残念ながら、LLMはキー情報を長いプロンプトで保持するのに苦労している。
テストインプットがプロンプトで広まれば、これは"lost-in-the-middle"問題を引き起こし、修復性能を損なう可能性がある。
そこで本研究では,LLM ベースの APR アプローチである ReduceFix を提案する。
ReduceFix は LLM に,人間の努力なしにフェール誘導テストインプットを最小限に抑えるリデューサを生成するように促す。
LFTBenchは20のプログラミングタスクから200の実際のバグを発生させた最初の長期入力型APRベンチマークであり,それぞれが中央値が1MBのフェールインジェクションインプットと組み合わせている。
このベンチマークでは、ReduceeFixは入力を平均89.1%削減し、元のテストを含むプロンプトと比較してパス@10を最大53.8%改善し、テストを完全に省略するよりも17.6%削減した。
ChatRepairに同じ削減ステップを追加することで、他の変更なしに修正レートが21.3%向上する。
アブレーション研究は、入力長と圧縮故障情報が修理成功に与える影響をさらに強調している。
これらの結果は,LLMベースのAPRの実用的かつ強力な補完であり,スケーラビリティと有効性を大幅に向上させることを裏付けている。
関連論文リスト
- Repair-R1: Better Test Before Repair [2.982543556561469]
APRは、自動的にプログラム欠陥を特定し、パッチを生成し、修復を検証することを目的としている。
現在のAPRメソッドは、推論段階でのみテストケースを使用するのが一般的である。
本稿では,モデルのトレーニングフェーズにテストケースを導入し,修正に先立ってテスト生成をシフトするリファレンス-R1を提案する。
論文 参考訳(メタデータ) (2025-07-30T17:24:05Z) - Repairing vulnerabilities without invisible hands. A differentiated replication study on LLMs [5.10123605644148]
自動脆弱性修復(AVR: Automated Vulnerability repair)は、プログラム修復の急激な分岐である。
近年の研究では、大きな言語モデル(LLM)が従来の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-07-28T16:39:16Z) - Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。
本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。
その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文 参考訳(メタデータ) (2025-07-21T17:30:16Z) - Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [84.30534714651093]
本稿では,検証を意識したプログラミング言語であるDafnyに対して,革新的なAPRツールを提案する。
プログラム内の各ステートメントの状態を決定するために、Hoare Logicの使用を含む一連のステップを通じて、障害をローカライズします。
実世界のDafnyプログラムのベンチマークであるDafnyBenchを用いて,我々のアプローチを評価する。
論文 参考訳(メタデータ) (2025-07-04T15:36:12Z) - The Art of Repair: Optimizing Iterative Program Repair with Instruction-Tuned Models [48.073219761367184]
複数出力の生成と複数ラウンドの反復のバランスをとるAPRパイプラインについて検討する。
3つのサイズ(1K, 30K, 65K)と2つのテクニック(フルファインチューニングとLoRA)を持つAPRデータセット上で各モデルを微調整する。
その結果,微調整データセットのごく一部(1%)しか使用せず,最大78%の改善が達成できた。
論文 参考訳(メタデータ) (2025-05-05T18:06:51Z) - Learning to Generate Unit Tests for Automated Debugging [52.63217175637201]
ユニットテスト(UT)は、コードの正確性を評価するだけでなく、大きな言語モデル(LLM)にフィードバックを提供する上でも重要な役割を果たします。
提案するUTGenは,LLMに対して,予測出力とともにエラーを示す単体テスト入力を生成することを教える。
UTGen は他の LLM ベースラインを7.59% 上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-03T18:51:43Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - TestART: Improving LLM-based Unit Testing via Co-evolution of Automated Generation and Repair Iteration [7.509927117191286]
大規模言語モデル(LLM)は、単体テストケースを生成する際、顕著な能力を示した。
本研究では,新しい単体テスト生成法であるTestARTを提案する。
TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。
論文 参考訳(メタデータ) (2024-08-06T10:52:41Z) - Revisiting Unnaturalness for Automated Program Repair in the Era of Large Language Models [9.454475517867817]
本研究では,テンプレートベースの補修技術の効率化を目的としたパッチ自然度測定,エントロピーデルタを提案する。
提案手法は,最先端の機械学習ツールよりも効果的に正パッチをランク付けできる。
論文 参考訳(メタデータ) (2024-04-23T17:12:45Z) - ContrastRepair: Enhancing Conversation-Based Automated Program Repair
via Contrastive Test Case Pairs [23.419180504723546]
ContrastRepairは、対照的なテストペアを提供することで、会話駆動型APRを強化する、新しいAPRアプローチである。
Defects4j、QuixBugs、HumanEval-Javaなど、複数のベンチマークデータセット上でContrastRepairを評価する。
論文 参考訳(メタデータ) (2024-03-04T12:15:28Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。