論文の概要: EvoRepair: Enhancing Vulnerability Repair Agents Through Experience-Based Self-Evolution
- arxiv url: http://arxiv.org/abs/2605.30105v1
- Date: Thu, 28 May 2026 15:46:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.44628
- Title: EvoRepair: Enhancing Vulnerability Repair Agents Through Experience-Based Self-Evolution
- Title(参考訳): EvoRepair: 経験に基づく自己進化による脆弱性修復エージェントの強化
- Authors: Haichuan Hu, Guoqing Xie, Quanjun Zhang, Jiawei Liu, Shengcheng Yu, Chunrong Fang, Zhenyu Chen, Liang Xiao,
- Abstract要約: 大規模言語モデル(LLM)は、自動脆弱性修復(AVR)を約束している。
それらはいくつかの制限に直面しており、その中には、対外性エクスペリエンスの蓄積の欠如や、対外性エクスペリエンスの再利用の欠如が含まれる。
体験ベースの自己進化型エージェントフレームワークであるEvoRepairを提案する。
- 参考スコア(独自算出の注目度): 22.605835230602935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown promise for automated vulnerability repair (AVR), but they still face several limitations, including the lack of intra-vulnerability experience accumulation and the lack of cross-vulnerability experience reuse. As a result, LLMs may repeatedly make similar mistakes during iterative repair and underutilize valuable repair knowledge from historical vulnerabilities. To address these challenges, we propose EvoRepair, the first experience-based self-evolving AVR agent framework that enables LLMs to accumulate, refine, and leverage domain-specific knowledge across long-horizon vulnerability repairs. EvoRepair follows a cyclic learn-and-repair process that retrieves relevant past experiences to guide repair, extracts new experiences from repair trajectories, and updates an experience bank using quality-aware scoring. We evaluate EvoRepair against 12 representative vulnerability repair baselines on PATCHEVAL and SEC-bench using GPT-5-mini. Results show that EvoRepair achieves the best overall performance, reaching 93.47% on PATCHEVAL, 87.00% on SEC-bench, and 90.46% overall. In particular, EvoRepair outperforms latest LLM-based baseline LoopRepair by 39.56% and 33.50% on PATCHEVAL and SEC-bench, respectively, and surpasses IntentFix by 70.86% and 50.50%. Across both benchmarks, EvoRepair also exceeds the recent self-evolving agent Live-SWE-Agent by 6.98% overall. Additional transfer experiments on VUL4J further demonstrate the robustness of EvoRepair across models, programming languages, and datasets. These findings demonstrate that experience-based self-evolution substantially strengthens agentic AVR and goes beyond existing self-evolving techniques.
- Abstract(参考訳): 大きな言語モデル(LLM)は自動脆弱性修正(AVR)を約束しているが、それでもいくつかの制限に直面している。
結果として、LLMは繰り返し、反復的な修理中に同様の間違いを犯し、歴史的な脆弱性から貴重な修理知識を損なう可能性がある。
これらの課題に対処するために,LLMが長期にわたる脆弱性修復を通じてドメイン固有の知識を蓄積し,洗練し,活用することを可能にする,初めてのエクスペリエンスベースの自己進化型AVRエージェントフレームワークであるEvoRepairを提案する。
EvoRepairは、繰り返し学習と修復のプロセスに従って、関連する過去の経験を検索して、修復路から新しい経験を抽出し、品質を意識したスコアリングを使用してエクスペリエンスバンクを更新する。
GPT-5-mini を用いた PATCHEVAL と SEC-bench の脆弱性修正ベースライン12点に対する EvoRepair の評価を行った。
その結果、EvoRepairはPATCHEVALで93.47%、SEC-benchで87.00%、総合で90.46%を達成している。
特に、EvoRepairは最新のLCMベースのベースラインのLoopRepairを39.56%、PATCHEVALとSEC-benchで33.50%、IntentFixを70.86%、50.50%で上回っている。
どちらのベンチマークでも、EvoRepairは最近の自己進化エージェントLive-SWE-Agentを6.98%上回っている。
VUL4Jのさらなる転送実験は、モデル、プログラミング言語、データセット間のEvoRepairの堅牢性をさらに証明している。
これらの結果は、経験に基づく自己進化がエージェント的AVRを大幅に強化し、既存の自己進化技術を越えていることを示している。
関連論文リスト
- MemRepair: Hierarchical Memory for Agentic Repository-Level Vulnerability Repair [10.709112246848058]
現代のソフトウェアエコシステムは、公表された脆弱性の急増に直面している。
既存のシステムのほとんどは、脆弱性の修復を、現在見えるコードコンテキストの単一生成ステップとして扱う。
本稿では、メモリ拡張されたエージェントフレームワークであるMemRepairを紹介し、脆弱性修復を反復的、経験駆動的なプロセスとして定式化する。
論文 参考訳(メタデータ) (2026-05-17T13:29:46Z) - EvidenT: An Evidence-Preserving Framework for Iterative System-Level Package Repair [26.445772656438752]
ツール実行からエビデント管理を分離するエビデント修復フレームワークであるエビデントを提案する。
実世界のRISC-Vパッケージビルド障害219件についてEvidenTの評価を行った。
予備実験はaarch64で41.77%、x86_64で46.99%の成功率を達成した。
論文 参考訳(メタデータ) (2026-05-09T02:29:57Z) - RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback [54.39884046754265]
RetroAgentは、エージェントが複雑なインタラクティブ環境をマスターできるオンラインRLフレームワークである。
実験の結果,RetroAgentはSOTA(State-of-the-art)の性能を達成できた。
論文 参考訳(メタデータ) (2026-03-09T16:23:33Z) - FLEX: Continuous Agent Evolution via Forward Learning from Experience [54.796367711967754]
大規模言語モデル(LLM)によって駆動される自律エージェントは、推論と問題解決に革命をもたらしたが、訓練後も静的のままである。
我々は,LLMエージェントが蓄積された経験を通して継続的に進化することを可能にする勾配のない学習パラダイムであるFLEX(Forward Learning with Experience)を紹介する。
論文 参考訳(メタデータ) (2025-11-09T16:31:39Z) - RelRepair: Enhancing Automated Program Repair by Retrieving Relevant Code [11.74568238259256]
RelRepairは関連するプロジェクト固有のコードを取得し、プログラムの自動修復を強化する。
広く研究されている2つのデータセット、Defects4J V1.2 と ManySStuBs4J について RelRepair の評価を行った。
論文 参考訳(メタデータ) (2025-09-20T14:07:28Z) - ReflectEvo: Improving Meta Introspection of Small LLMs by Learning Self-Reflection [60.75785864719726]
本稿では,小言語モデル(SLM)がリフレクション学習を通じてメタイントロスペクションを向上させることを実証するために,新しいパイプラインであるReflectEvoを提案する。
大規模かつ包括的かつ自己生成型リフレクションデータセットであるReflectEvo-460kを構築し,多様なマルチドメインタスクを実現する。
論文 参考訳(メタデータ) (2025-05-22T10:03:05Z) - Evaluating the Generalizability of LLMs in Automated Program Repair [12.7034916462208]
DeFECTS4J-TRANSは,Deffects4Jを変換した新しいデータセットである。
Defects4J と DEFECTS4J-TRANS の両実験の結果、LLM は APR タスクにおいて限定的な一般化性を持つことが示された。
論文 参考訳(メタデータ) (2025-03-12T10:03:58Z) - Evolving LLMs' Self-Refinement Capability via Synergistic Training-Inference Optimization [53.93621974137829]
自己精製(Self-Refinement)とは、モデルが自身のレスポンスを改訂し、改善された出力を生成する能力を指す。
EVOLVEは、反復的なトレーニングを通じて自己精製の進化を導き、追跡するためのフレームワークである。
固有モデル能力のより広範な自己改善を実現するために自己改善を活用する可能性を実証する。
論文 参考訳(メタデータ) (2025-02-08T15:21:55Z) - How Far Can We Go with Practical Function-Level Program Repair? [11.71750828464698]
本稿では,少数ショット学習機構と補修関連情報が機能レベルAPRに及ぼす影響について検討する。
補修関連情報のパワーを活用するために,デュアルLLM フレームワークを採用した LLM ベースの関数レベル APR 手法,すなわち SRepair を提案する。
論文 参考訳(メタデータ) (2024-04-19T12:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。