論文の概要: Repair-R1: Better Test Before Repair
- arxiv url: http://arxiv.org/abs/2507.22853v1
- Date: Wed, 30 Jul 2025 17:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.360456
- Title: Repair-R1: Better Test Before Repair
- Title(参考訳): repair-R1: 改善前のテストを改善する
- Authors: Haichuan Hu, Xiaochen Xie, Quanjun Zhang,
- Abstract要約: APRは、自動的にプログラム欠陥を特定し、パッチを生成し、修復を検証することを目的としている。
現在のAPRメソッドは、推論段階でのみテストケースを使用するのが一般的である。
本稿では,モデルのトレーニングフェーズにテストケースを導入し,修正に先立ってテスト生成をシフトするリファレンス-R1を提案する。
- 参考スコア(独自算出の注目度): 2.982543556561469
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: APR (Automated Program Repair) aims to automatically locate program defects, generate patches and validate the repairs. Existing techniques for APR are often combined with LLMs (Large Language Models), which leverages the code-related knowledge of LLMs to improve repair effectiveness. Current LLM-based APR methods typically utilize test cases only during the inference stage, adopting an iterative approach that performs repair first and validates it through test execution afterward. This conventional paradigm neglects two important aspects: the potential contribution of test cases in the training phase, and the possibility of leveraging testing prior to repair. To address this, we propose Repair-R1, which introduces test cases into the model's training phase and shifts test generation to precede repair. The model is required to first generate discriminative test cases that can distinguish defective behaviors, and then perform repair based on these tests. This enables the model to better locate defects and understand the underlying causes of defects, thereby improving repair effectiveness. We implement Repair-R1 with three different backbone models, using RL (reinforcement learning) to co-optimize test generation and bug repair. Experimental results on four widely adopted benchmarks demonstrate the superiority of Repair-R1. Specially, compared to vanilla models, Repair-R1 improves repair success rate by 2.68\% to 48.29\%, test generation success rate by 16.38\% to 53.28\%, and test coverage by 0.78\% to 53.96\%. We publish the code and weights at https://github.com/Tomsawyerhu/APR-RL and https://huggingface.co/tomhu/Qwen3-4B-RL-5000-step.
- Abstract(参考訳): APR(Automated Program repair)は、プログラム欠陥を自動的に見つけ、パッチを生成し、修復を検証することを目的としている。
APRの既存の技術は、LLM(Large Language Models)と組み合わせられることが多い。
現在のLLMベースのAPR法は一般的に、推論段階でのみテストケースを使用し、最初に修復を行い、その後にテスト実行を通じて検証する反復的なアプローチを採用する。
この従来のパラダイムは、トレーニングフェーズにおけるテストケースの潜在的貢献と、修理前にテストを活用する可能性の2つの重要な側面を無視しています。
そこで本研究では,テストケースをモデルのトレーニングフェーズに導入し,修正に先立つようにテスト生成をシフトするリフレクション-R1を提案する。
モデルはまず、欠陥のある振る舞いを区別できる差別的なテストケースを生成し、これらのテストに基づいて修復を行う必要がある。
これにより、モデルが欠陥を見つけやすくし、欠陥の原因を理解することができ、修理の効率が向上する。
我々はRL(強化学習)を用いて,3種類のバックボーンモデルを用いた補修-R1を実装し,テスト生成とバグ修正を協調的に最適化する。
広く採用されている4つのベンチマークの実験結果は、修復-R1の優位性を示している。
特にバニラモデルと比較して、修理-R1は修理成功率を2.68\%から48.29\%に改善し、テスト生成成功率を16.38\%から53.28\%に、テストカバレッジを0.78\%から53.96\%に改善した。
コードと重みはhttps://github.com/Tomsawyerhu/APR-RLとhttps://huggingface.co/tomhu/Qwen3-4B-RL-5000-stepで公開しています。
関連論文リスト
- Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [84.30534714651093]
本稿では,検証を意識したプログラミング言語であるDafnyに対して,革新的なAPRツールを提案する。
プログラム内の各ステートメントの状態を決定するために、Hoare Logicの使用を含む一連のステップを通じて、障害をローカライズします。
実世界のDafnyプログラムのベンチマークであるDafnyBenchを用いて,我々のアプローチを評価する。
論文 参考訳(メタデータ) (2025-07-04T15:36:12Z) - The Art of Repair: Optimizing Iterative Program Repair with Instruction-Tuned Models [48.073219761367184]
複数出力の生成と複数ラウンドの反復のバランスをとるAPRパイプラインについて検討する。
3つのサイズ(1K, 30K, 65K)と2つのテクニック(フルファインチューニングとLoRA)を持つAPRデータセット上で各モデルを微調整する。
その結果,微調整データセットのごく一部(1%)しか使用せず,最大78%の改善が達成できた。
論文 参考訳(メタデータ) (2025-05-05T18:06:51Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - TestART: Improving LLM-based Unit Testing via Co-evolution of Automated Generation and Repair Iteration [7.509927117191286]
大規模言語モデル(LLM)は、単体テストケースを生成する際、顕著な能力を示した。
本研究では,新しい単体テスト生成法であるTestARTを提案する。
TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。
論文 参考訳(メタデータ) (2024-08-06T10:52:41Z) - ContrastRepair: Enhancing Conversation-Based Automated Program Repair
via Contrastive Test Case Pairs [23.419180504723546]
ContrastRepairは、対照的なテストペアを提供することで、会話駆動型APRを強化する、新しいAPRアプローチである。
Defects4j、QuixBugs、HumanEval-Javaなど、複数のベンチマークデータセット上でContrastRepairを評価する。
論文 参考訳(メタデータ) (2024-03-04T12:15:28Z) - FlakyFix: Using Large Language Models for Predicting Flaky Test Fix Categories and Test Code Repair [0.5749787074942512]
不安定なテストは、テスト中の同じソフトウェアバージョンを非決定的にパスまたは失敗するため、問題となる。
本稿では、フレキネスを除去し、それに基づいてテストコードを修正するために必要な修正の種類を予測することに焦点を当てる。
1つの鍵となるアイデアは、予想される修正カテゴリの形で、テストのフレキネスに関するさらなる知識で、修復プロセスを導くことである。
論文 参考訳(メタデータ) (2023-06-21T19:34:16Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。