論文の概要: Patch Validation in Automated Vulnerability Repair
- arxiv url: http://arxiv.org/abs/2603.06858v1
- Date: Fri, 06 Mar 2026 20:22:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.208455
- Title: Patch Validation in Automated Vulnerability Repair
- Title(参考訳): 自動脆弱性修復におけるパッチ検証
- Authors: Zheng Yu, Wenxuan Shi, Xinqian Sun, Zheyun Feng, Meng Xu, Xinyu Xing,
- Abstract要約: 基本的なテストで正しく検証されたパッチの40%以上は、textPoC+$テストで失敗する。
我々は,ルート原因分析,プログラム仕様の遵守,開発者の意図の把握という3つの重要な領域において,ツールの改善を提案する。
- 参考スコア(独自算出の注目度): 10.370450546423596
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automated Vulnerability Repair (AVR) systems, especially those leveraging large language models (LLMs), have demonstrated promising results in patching vulnerabilities -- that is, if we trust their patch validation methodology. Ground-truth patches from human developers often come with new tests that not only ensure mitigation of the vulnerability but also encode extra semantics such as root cause location, optimal fix strategy, or subtle coding styles or conventions. And yet, none of the recent AVR systems verify that the auto-generated patches additionally pass these new tests (termed as $\text{PoC}^+$ tests). This is a subtle yet critical omission. To fill this gap, we constructed a benchmark, $\textrm{PVBench}$, with 209 cases spanning 20 projects. Each case includes basic tests (functional tests before the patch and the PoC exploit) as well as the associated $\text{PoC}^+$ tests. Evaluated on three state-of-the-art AVR systems, we find that over 40\% of patches validated as correct by basic tests fail under $\text{PoC}^+$ testing, revealing substantial overestimation on patch success rates. Analyzing these patches that are falsely labeled as correct, we suggest that AVR tools should improve in three critical areas: root cause analysis, adherence to program specifications, and capturing developer intention.
- Abstract(参考訳): AVR(Automated Vulnerability repair)システム、特に大規模言語モデル(LLM)を活用するシステムは、脆弱性にパッチを当てることの有望な結果を実証している。
脆弱性を緩和するだけでなく、ルート原因の位置、最適な修正戦略、微妙なコーディングスタイルや規約などの余分なセマンティクスをエンコードする。
しかし、最近のAVRシステムでは、自動生成されたパッチがこれらの新しいテスト($\text{PoC}^+$ testと判定される)をパスすることを検証していない。
これは微妙だが批判的な省略である。
このギャップを埋めるために、私たちは$\textrm{PVBench}$というベンチマークを構築しました。
各ケースには基本的なテスト(パッチ前の機能テストとPoCエクスプロイト)と関連する$\text{PoC}^+$テストが含まれる。
3つの最先端のAVRシステムで評価したところ、基本的なテストで正しく検証されたパッチの40%以上は、$\text{PoC}^+$テストで失敗し、パッチの成功率にかなりの過大評価があることが判明した。
これらのパッチを正しくラベル付けして分析すると、AVRツールはルート原因分析、プログラム仕様の遵守、開発者の意図の把握という3つの重要な領域で改善されるべきである。
関連論文リスト
- Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - What Do They Fix? LLM-Aided Categorization of Security Patches for Critical Memory Bugs [46.325755802511026]
我々は、LLM(Large Language Model)と細調整された小言語モデルに基づく2つのアプローチを統合するデュアルメタルパイプラインであるLMを開発した。
LMは、OOBまたはUAFの脆弱性に対処する最近のLinuxカーネルのパッチ5,140のうち111つを、手作業による検証によって90の正の正が確認された。
論文 参考訳(メタデータ) (2025-09-26T18:06:36Z) - Are "Solved Issues" in SWE-bench Really Solved Correctly? An Empirical Study [18.117047833029073]
自動問題解決のための最も一般的なベンチマークは、SWE-benchと、その人間のフィルタリングサブセットであるSWE-bench Verifiedである。
本稿では,SWE-bench Verifiedで評価された3つの最先端課題解決ツールによって生成された可塑性パッチの正確性について,詳細な実験的検討を行った。
論文 参考訳(メタデータ) (2025-03-19T14:02:21Z) - SBEST: Spectrum-Based Fault Localization Without Fault-Triggering Tests [17.90798133817018]
本研究は, 事故報告から得られたスタックトレースを, スペクトルベース断層定位における故障トリガー試験のプロキシとして用いる可能性について検討した。
本稿では,スタックトレース情報とテストカバレッジデータを統合する新たな手法であるSBESTを提案する。
論文 参考訳(メタデータ) (2024-05-01T15:15:52Z) - PS$^3$: Precise Patch Presence Test based on Semantic Symbolic Signature [13.9637348151437]
既存のアプローチは主に、同じコンパイラオプションでコンパイルされるパッチの検出に重点を置いている。
PS3はシンボルエミュレーションを利用して、異なるコンパイラオプションの下で安定なシグネチャを抽出する。
PS3は精度、リコール、F1のスコアで0.82、0.97、0.89のスコアを得る。
論文 参考訳(メタデータ) (2023-12-06T10:04:15Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - Test-based Patch Clustering for Automatically-Generated Patches Assessment [21.051652050359852]
オーバーフィッティングは、パッチが実行され、テストスイートがエラーを露呈しない場合に発生するが、パッチは、実際に基盤となるバグを修正したり、テストスイートがカバーしていない新しい欠陥を導入したりする。
私たちの研究は、プログラマがレビューしなければならない妥当なパッチの数を最小限に抑え、正しいパッチを見つけるのに必要な時間を短縮することを目的としています。
我々は、xTestClusterと呼ばれる新しい軽量なテストベースのパッチクラスタリング手法を導入し、その動的挙動に基づいてパッチをクラスタリングする。
論文 参考訳(メタデータ) (2022-07-22T13:39:27Z) - Segment and Complete: Defending Object Detectors against Adversarial
Patch Attacks with Robust Patch Detection [142.24869736769432]
敵のパッチ攻撃は最先端の物体検出器に深刻な脅威をもたらす。
パッチ攻撃に対して物体検出器を防御するフレームワークであるSegment and Complete Defense (SAC)を提案する。
SACは、物理的パッチ攻撃の標的攻撃成功率を著しく低減できることを示す。
論文 参考訳(メタデータ) (2021-12-08T19:18:48Z) - Exploring Plausible Patches Using Source Code Embeddings in JavaScript [1.3327130030147563]
オープンソースJavaScriptプロジェクトでDoc2Vecモデルをトレーニングし、10のバグに対して465のパッチを生成しました。
これらの正当なパッチと開発者修正は、元のプログラムとの類似性に基づいてランク付けされる。
これらの類似性リストを分析し、プレーンな文書埋め込みが誤分類につながる可能性があることを発見した。
論文 参考訳(メタデータ) (2021-03-31T06:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。