論文の概要: PATCHEVAL: A New Benchmark for Evaluating LLMs on Patching Real-World Vulnerabilities
- arxiv url: http://arxiv.org/abs/2511.11019v1
- Date: Fri, 14 Nov 2025 07:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.472217
- Title: PATCHEVAL: A New Benchmark for Evaluating LLMs on Patching Real-World Vulnerabilities
- Title(参考訳): PATCHEVAL: 現実世界の脆弱性に対処するためのLLM評価のための新しいベンチマーク
- Authors: Zichao Wei, Jun Zeng, Ming Wen, Zeliang Yu, Kai Cheng, Yiding Zhu, Jingyi Guo, Shiqi Zhou, Le Yin, Xiaodong Su, Zhechao Ma,
- Abstract要約: ソフトウェアにおける脆弱性は、警戒速度で増加しています。
手作業のパッチは時間がかかり、リソースが集中的です。
自動脆弱性修復技術は 有効性に限界があります
大規模言語モデル(LLM)の最近の進歩は、脆弱性ベンチマークのための新しいパラダイムを開放した。
- 参考スコア(独自算出の注目度): 10.936360792186148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software vulnerabilities are increasing at an alarming rate. However, manual patching is both time-consuming and resource-intensive, while existing automated vulnerability repair (AVR) techniques remain limited in effectiveness. Recent advances in large language models (LLMs) have opened a new paradigm for AVR, demonstrating remarkable progress. To examine the capability of LLMs in AVR, several vulnerability benchmarks have been proposed recently. However, they still suffer from key limitations of outdated vulnerabilities, limited language coverage, unreliable patch validation, and insufficient reproducibility. To overcome these challenges, we introduce PATCHEVAL, a multilingual benchmark for Go, JavaScript, and Python, languages for which existing benchmarks remain unexplored. PATCHEVAL curates a dataset of 1,000 vulnerabilities drawn from CVEs reported between 2015 and 2025, covering 65 distinct CWEs. A subset of 230 CVEs is further equipped with runtime sandbox environments, enabling patch verification through both security tests and functionality tests. To provide a systematic comparison of LLM-based vulnerability repair, we evaluate a series of state-of-the-art LLMs and agents, presenting an in-depth analysis that empirically yields key insights to guide future research in AVR.
- Abstract(参考訳): ソフトウェア脆弱性は警戒速度で増加しています。
しかし、手動パッチは時間を要することとリソース集約的なものであるのに対し、既存の自動脆弱性修復(AVR)技術は有効性に制限されている。
大規模言語モデル(LLM)の最近の進歩は、AVRの新しいパラダイムを開き、目覚ましい進歩を見せている。
AVRにおけるLLMの能力を調べるために、最近いくつかの脆弱性ベンチマークが提案されている。
しかし、時代遅れの脆弱性、言語カバレッジの制限、信頼性の低いパッチ検証、再現性不足といった重要な制限に悩まされている。
これらの課題を克服するために、Go、JavaScript、Pythonのマルチ言語ベンチマークであるPATCHEVALを紹介します。
PATCHEVALは、2015年から2025年にかけて報告されたCVEから引き出された1,000の脆弱性のデータセットをキュレートし、65のCWEをカバーしている。
230のCVEのサブセットはランタイムサンドボックス環境も備えており、セキュリティテストと機能テストの両方を通じてパッチ検証を可能にする。
LLMに基づく脆弱性修復の体系的比較を行うため、我々は、AVRにおける将来の研究をガイドするための重要な洞察を実証的に得られる詳細な分析結果として、最先端のLSMとエージェントのシリーズを評価した。
関連論文リスト
- What Do They Fix? LLM-Aided Categorization of Security Patches for Critical Memory Bugs [46.325755802511026]
我々は、LLM(Large Language Model)と細調整された小言語モデルに基づく2つのアプローチを統合するデュアルメタルパイプラインであるLMを開発した。
LMは、OOBまたはUAFの脆弱性に対処する最近のLinuxカーネルのパッチ5,140のうち111つを、手作業による検証によって90の正の正が確認された。
論文 参考訳(メタデータ) (2025-09-26T18:06:36Z) - VulnRepairEval: An Exploit-Based Evaluation Framework for Assessing Large Language Model Vulnerability Repair Capabilities [41.85494398578654]
VulnRepairEvalは、関数型Proof-of-Conceptエクスプロイトに固定された評価フレームワークである。
我々のフレームワークは、再現可能な微分評価を可能にする包括的でコンテナ化された評価パイプラインを提供する。
論文 参考訳(メタデータ) (2025-09-03T14:06:10Z) - LLMxCPG: Context-Aware Vulnerability Detection Through Code Property Graph-Guided Large Language Models [2.891351178680099]
本稿では,コードプロパティグラフ(CPG)とLarge Language Models(LLM)を統合し,堅牢な脆弱性検出を行う新しいフレームワークを提案する。
より簡潔で正確なコードスニペット表現を提供するアプローチの能力は、より大きなコードセグメントの分析を可能にします。
実証的な評価は、検証済みデータセット間でLLMxCPGの有効性を示し、最先端のベースラインよりもF1スコアが15~40%改善されている。
論文 参考訳(メタデータ) (2025-07-22T13:36:33Z) - Improving LLM Reasoning for Vulnerability Detection via Group Relative Policy Optimization [45.799380822683034]
大規模言語モデル(LLM)のためのRLベースファインタニング技術の進歩を目的とした広範な研究を提案する。
一般的に採用されているLSMには,特定の脆弱性を過度に予測する傾向があり,他の脆弱性を検出できない,といった,重要な制限が強調される。
この課題に対処するために、構造化されたルールベースの報酬を通してLLMの振る舞いを導くための最近の政策段階的手法であるグループ相対政策最適化(GRPO)について検討する。
論文 参考訳(メタデータ) (2025-07-03T11:52:45Z) - SecVulEval: Benchmarking LLMs for Real-World C/C++ Vulnerability Detection [8.440793630384546]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて有望であることを示している。
高品質なデータセットがないため、脆弱性検出の有効性を評価するのは難しい。
このベンチマークには、1999年から2024年までのC/C++プロジェクトで5,867のCVEをカバーする25,440の関数サンプルが含まれている。
論文 参考訳(メタデータ) (2025-05-26T11:06:03Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching [0.9208007322096533]
大きな言語モデル(LLM)は、コード翻訳のようなタスクにおいて有望であることを示している。
本稿では,C コードの脆弱性を特定し,パッチする際の LLM の性能を評価するためのフレームワーク VulnLLMEval を紹介する。
私たちの研究には、Linuxカーネルから抽出された307の現実世界の脆弱性が含まれている。
論文 参考訳(メタデータ) (2024-09-16T22:00:20Z) - APPATCH: Automated Adaptive Prompting Large Language Models for Real-World Software Vulnerability Patching [24.958856670970366]
本稿では,事前学習言語モデル(LLM)のパワーとメリットを活用し,脆弱性の自動パッチングを実現する。
脆弱なコードの振る舞いを効果的に推論するために,LLMを応用するために,脆弱性セマンティックス推論と適応的プロンプトを導入する。
97のゼロデイ脆弱性と20の既存脆弱性に対するAPの評価は、既存の手法と最先端の非LLM技術の両方に優れた性能を示している。
論文 参考訳(メタデータ) (2024-08-24T14:51:50Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。