論文の概要: BoostAPR: Boosting Automated Program Repair via Execution-Grounded Reinforcement Learning with Dual Reward Models
- arxiv url: http://arxiv.org/abs/2605.09134v3
- Date: Wed, 13 May 2026 16:38:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.83076
- Title: BoostAPR: Boosting Automated Program Repair via Execution-Grounded Reinforcement Learning with Dual Reward Models
- Title(参考訳): BoostAPR: デュアルリワードモデルによる実行型強化学習による自動プログラム修復の促進
- Authors: Yuanhao Li, Hongbo Wang, Xiaotang Shang, Xunzhu Tang, Yiming Cao, Xuhong Chen,
- Abstract要約: プログラム修復のための強化学習は、スパース実行フィードバックと、どの編集がバグを実際に修正するかが不明なシーケンスレベルの報酬によって妨げられる。
これらの課題に対処する3段階のフレームワークであるBoostAPRを紹介します。
- 参考スコア(独自算出の注目度): 9.519307176717094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning for program repair is hindered by sparse execution feedback and coarse sequence-level rewards that obscure which edits actually fix bugs. We present BoostAPR, a three-stage framework addressing these challenges: (1) supervised fine-tuning on execution-verified demonstrations with reasoning traces, (2) training dual reward models--a sequence-level assessor and a line-level credit allocator--from execution outcomes, and (3) PPO optimization where the line-level model redistributes rewards to critical edit regions. This line-level credit assignment operates at an intermediate granularity naturally suited to code changes. Trained on SWE-Gym and evaluated on four benchmarks, BoostAPR achieves 40.7% on SWE-bench Verified (+22.9pp over base model), 24.8% on Defects4J (Python-to-Java transfer), 84.5% on HumanEval-Java, and 95.0% on QuixBugs, achieving competitive results among open-source models with strong cross-language generalization.
- Abstract(参考訳): プログラム修復のための強化学習は、スパース実行フィードバックと、どの編集がバグを実際に修正するかを曖昧にするような粗いシーケンスレベルの報酬によって妨げられる。
これらの課題に対処する3段階のフレームワークであるBoostAPRについて述べる。(1)推論トレースを用いた実行検証デモの微調整,(2)シーケンスレベルのアセスメントとラインレベルのアロケータのトレーニング,(3)ラインレベルのモデルが重要な編集領域に報酬を再分配するPPO最適化。
このラインレベルのクレジット代入は、コード変更に自然に適合する中間粒度で動作する。
SWE-Gymでトレーニングされ、4つのベンチマークで評価され、BoostAPRはSWE-bench Verified(+22.9pp over base model)で40.7%、Defects4J(Python-to-Javaトランスファー)で24.8%、HumanEval-Javaで84.5%、QuixBugsで95.0%を達成し、強力なクロス言語一般化を持つオープンソースモデルで競合する結果を得た。
関連論文リスト
- Multi-Turn Reinforcement Learning for Tool-Calling Agents with Iterative Reward Calibration [0.0]
マルチターンタスクにおける強化学習を伴う訓練ツール呼び出しエージェントは依然として困難である。
本稿では,MT-GRPO と GTPO を用いて,現実的なカスタマーサービスタスクにおけるツールコールエージェントのトレーニングを行う。
論文 参考訳(メタデータ) (2026-04-03T08:36:03Z) - On the Effectiveness of Code Representation in Deep Learning-Based Automated Patch Correctness Assessment [27.074607600022315]
自動プログラム修復(APR)は、正しいパッチを作成しようとする試みであり、過去数十年間、学術と産業の両方から広く注目を集めてきた。
オーバーフィッティング問題に対処するため、コミュニティはパッチの正当性(APCAアプローチ)を予測するためのアプローチを多数提案している。
中でも,デザインの自動マッチングを目的とした局所的な深層学習アプローチが強くなってきている。
パッチの正確性には根本的な理由があるにもかかわらず、コード表現は体系的に研究されていない。
論文 参考訳(メタデータ) (2026-03-08T08:18:42Z) - SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning [39.1720897614261]
密度の高いステップレベルのフィードバックを提供するプロセス報酬モデル(PRM)は、強化学習の可能性を示している。
筆者らはSPARK(SPARK)という3段階のフレームワークを提案し、第1段階ではジェネレータモデルが多様な解を生成し、検証器モデルがそれらを評価する。
ステップレベルで複数の独立した検証を集約することで、根底的な結果管理を超越したプロセス報酬モデルのトレーニングデータが得られることを示す。
論文 参考訳(メタデータ) (2025-12-02T21:30:47Z) - Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains [97.5573252172065]
自動推論評価器(FARE)のファミリーを,簡易な反復的リジェクションサンプリング制御による微調整手法で訓練する。
FARE-8Bはより大型のRL訓練評価器に挑戦し、FARE-20Bはオープンソース評価器の新しい標準となる。
推論時リランカとして、FARE-20BはMATH上でのニアオークル性能を達成する。
論文 参考訳(メタデータ) (2025-10-20T17:52:06Z) - Automated Repair of C Programs Using Large Language Models [0.0]
本研究では,Cプログラムの修復を自動化する上で,LLM(Large Language Models)の可能性について検討する。
本稿では,SBFL(Spectrum-based Fault Localization),ランタイムフィードバック,Chain-of-Thought-structured(Chain-of-Thought-structured)を自動修復ループに統合するフレームワークを提案する。
我々の手法は44.93%の修理精度を達成し、最先端のAPRベースラインに対する3.61%の絶対的な改善を示している。
論文 参考訳(メタデータ) (2025-09-02T04:34:11Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - The Art of Repair: Optimizing Iterative Program Repair with Instruction-Tuned Models [48.073219761367184]
複数出力の生成と複数ラウンドの反復のバランスをとるAPRパイプラインについて検討する。
3つのサイズ(1K, 30K, 65K)と2つのテクニック(フルファインチューニングとLoRA)を持つAPRデータセット上で各モデルを微調整する。
その結果,微調整データセットのごく一部(1%)しか使用せず,最大78%の改善が達成できた。
論文 参考訳(メタデータ) (2025-05-05T18:06:51Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Reinforcement Learning for Mutation Operator Selection in Automated Program Repair [11.756822700775668]
プログラム修復における突然変異演算子の選択に対する強化学習に基づくアプローチの有効性について検討する。
提案手法は, 言語, プログラミングレベル, 検索戦略であり, 既存の補修ツールに容易に拡張できる。
Defects4Jベンチマークから,実世界の353のバグに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-06-09T10:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。