論文の概要: ContraFix: Agentic Vulnerability Repair via Differential Runtime Evidence and Skill Reuse
- arxiv url: http://arxiv.org/abs/2605.17450v1
- Date: Sun, 17 May 2026 13:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.096419
- Title: ContraFix: Agentic Vulnerability Repair via Differential Runtime Evidence and Skill Reuse
- Title(参考訳): ContraFix:differial Runtime EvidenceとSkill Reuseによるエージェント脆弱性の修復
- Authors: Simiao Liu, Fang Liu, Li Zhang, Yang Liu, Yinghao Zhu,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、自動脆弱性修復にますます利用されている。
最近の実証的な結果は、これらのエージェントがいまだに現実世界の脆弱性と戦っていることを示している。
ContraFixは、再利用可能な修復スキルとランタイムエビデンスを結合するエージェントフレームワークである。
- 参考スコア(独自算出の注目度): 10.503895811137095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents are increasingly used for automated vulnerability repair (AVR), where repository-level reasoning enables them to inspect context and produce source-code patches. However, recent empirical results show that these agents still struggle with real-world vulnerabilities. Their main failure mode is semantic misunderstanding: choosing a repair direction that does not match the root cause. We identify two reasons for this gap. Existing agents usually reason from the failing execution alone. A crash report can pinpoint where the program failed, but it does not reveal which variable or state transition, among many candidates near the fault site, separates the crashing behavior from safe execution. As a result, agents often produce symptom-oriented patches instead of causal fixes. Moreover, evidence collected for one vulnerability is rarely retained, so similar cases in later repositories must be diagnosed again from scratch. We present ContraFix, an agentic AVR framework that couples differential runtime evidence with reusable repair skills. Its Mutator constructs PoC variants that straddle the failure boundary; its Analyzer inserts state probes around the fault region and summarizes divergences between crashing and non-crashing executions into a repair specification; and its Patcher converts the specification into verified source patches. Each successful repair updates a two-track skill base containing repair specifications and mutation strategies, which are retrieved through a three-tier policy for future instances. On SEC-Bench (C/C++, 200 instances) and PatchEval (Go, Python, JavaScript, 225 instances), ContraFix with GPT-5-mini resolves 84.0% and 73.8% of the tasks, respectively, achieving state-of-the-art performance on both benchmarks while costing less than one-third of the strongest comparable baseline.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、リポジトリレベルの推論によってコンテキストを検査し、ソースコードパッチを生成することができる、自動脆弱性修正(AVR)にますます使用されている。
しかし、最近の実証的な結果は、これらのエージェントがいまだに現実世界の脆弱性と戦っていることを示している。
主な障害モードはセマンティックな誤解であり、根本原因と一致しない修復方向を選択する。
このギャップの理由は2つあります。
既存のエージェントは通常、実行に失敗しただけで理由付けをする。
クラッシュレポートは、プログラムが失敗した場所を特定することができるが、障害サイトに近い多くの候補の中で、どの変数または状態遷移が安全な実行からクラッシュする動作を分離するかは明らかにしない。
その結果、エージェントは因果修正の代わりに症状指向のパッチを生成することが多い。
さらに、ある脆弱性のために収集されたエビデンスをほとんど保持しないため、後続のリポジトリでも同様のケースをスクラッチから再診断する必要がある。
ContraFixはエージェント型AVRフレームワークで、再利用可能な修復スキルと差分ランタイムエビデンスを結合する。
Mutator は障害境界にまたがる PoC 変種を構築し、Analyzer は障害領域の周りで状態プローブを挿入し、クラッシュと非クラッシュ実行のばらつきを補修仕様にまとめ、Pacher は仕様を検証済みのソースパッチに変換する。
それぞれの修復が成功すると、修復仕様と突然変異戦略を含む2トラックスキルベースが更新される。
SEC-Bench(C/C++, 200インスタンス)とPatchEval(Go, Python, JavaScript, 225インスタンス)では、GPT-5-miniによるContraFixは、それぞれ84.0%と73.8%のタスクを解決し、両ベンチマークで最先端のパフォーマンスを達成し、最上位のベースラインの3分の1未満のコストがかかる。
関連論文リスト
- MemRepair: Hierarchical Memory for Agentic Repository-Level Vulnerability Repair [10.709112246848058]
現代のソフトウェアエコシステムは、公表された脆弱性の急増に直面している。
既存のシステムのほとんどは、脆弱性の修復を、現在見えるコードコンテキストの単一生成ステップとして扱う。
本稿では、メモリ拡張されたエージェントフレームワークであるMemRepairを紹介し、脆弱性修復を反復的、経験駆動的なプロセスとして定式化する。
論文 参考訳(メタデータ) (2026-05-17T13:29:46Z) - Patch2Vuln: Agentic Reconstruction of Vulnerabilities from Linux Distribution Binary Patches [3.93181912653522]
本稿では,ローカルバイナリ由来の証拠に制限された言語モデルエージェントが,Linuxディストリビューション更新のセキュリティ意味を再構築できるかどうかを問う。
Patch2Vulnは、古い/新しいELFペアを抽出し、GhidraとGhidriffと拡散し、機能の変更をランク付けし、候補ドシエを構築し、オフラインエージェントに予備監査を生成する、ローカルで再利用可能なパイプラインである。
Patch2Vuln on 25 Ubuntu.deb package pairs: 20のセキュリティアップデートペアと5つの負のコントロール。
論文 参考訳(メタデータ) (2026-05-07T17:22:22Z) - Mitigating Implicit Inconsistencies in Patch Porting [13.153399281876451]
暗黙の矛盾は、開発者がその非ローカルな性質のために解決する上での課題となる。
我々は,LLM,コンパイラ,コード解析ユーティリティ間の協調を可能にするMIPを提案する。
クロスフォークとクロスブランチのパッチポーティングという2つの代表的なシナリオの実験は、MIPが両方の設定において最高のパフォーマンスのベースラインの2倍以上のパッチを解決したことを示している。
論文 参考訳(メタデータ) (2026-04-02T06:33:31Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications [0.0]
テスト駆動型AIエージェント定義(TDAD)は、エージェントプロンプトをコンパイルされたアーティファクトとして扱う方法論である。
SpecSuite-CoreのTDADは、ポリシーコンプライアンス、グラウンドド・アナリティクス、ランブックの遵守、決定論的強制にまたがる4つのエージェントのベンチマークである。
論文 参考訳(メタデータ) (2026-03-09T18:04:54Z) - Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。
kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。
kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文 参考訳(メタデータ) (2026-02-02T19:06:15Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - What Do They Fix? LLM-Aided Categorization of Security Patches for Critical Memory Bugs [46.325755802511026]
我々は、LLM(Large Language Model)と細調整された小言語モデルに基づく2つのアプローチを統合するデュアルメタルパイプラインであるLMを開発した。
LMは、OOBまたはUAFの脆弱性に対処する最近のLinuxカーネルのパッチ5,140のうち111つを、手作業による検証によって90の正の正が確認された。
論文 参考訳(メタデータ) (2025-09-26T18:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。