Fugu-MT 論文翻訳(概要): AutoPatch: Multi-Agent Framework for Patching Real-World CVE Vulnerabilities

論文の概要: AutoPatch: Multi-Agent Framework for Patching Real-World CVE Vulnerabilities

arxiv url: http://arxiv.org/abs/2505.04195v1
Date: Wed, 07 May 2025 07:49:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-08 19:07:36.001941
Title: AutoPatch: Multi-Agent Framework for Patching Real-World CVE Vulnerabilities
Title（参考訳）: AutoPatch: 実世界のCVE脆弱性に対処するためのマルチエージェントフレームワーク
Authors: Minjae Seo, Wonwoo Choi, Myoungsung You, Seungwon Shin,
Abstract要約: 大規模言語モデル(LLM)はソフトウェア開発において有望なツールとして登場した。彼らの知識は、固定されたカットオフ日に限定されており、新しく公開されたCVEに脆弱なコードを生成する傾向がある。脆弱なLLM生成コードにパッチを当てるためのフレームワークであるAutoPatchを提案する。
参考スコア（独自算出の注目度）: 7.812032134834162
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have emerged as promising tools in software development, enabling automated code generation and analysis. However, their knowledge is limited to a fixed cutoff date, making them prone to generating code vulnerable to newly disclosed CVEs. Frequent fine-tuning with new CVE sets is costly, and existing LLM-based approaches focus on oversimplified CWE examples and require providing explicit bug locations to LLMs, limiting their ability to patch complex real-world vulnerabilities. To address these limitations, we propose AutoPatch, a multi-agent framework designed to patch vulnerable LLM-generated code, particularly those introduced after the LLMs' knowledge cutoff. AutoPatch integrates Retrieval-Augmented Generation (RAG) with a structured database of recently disclosed vulnerabilities, comprising 525 code snippets derived from 75 high-severity CVEs across real-world systems such as the Linux kernel and Chrome. AutoPatch combines semantic and taint analysis to identify the most relevant CVE and leverages enhanced Chain-of-Thought (CoT) reasoning to construct enriched prompts for verification and patching. Our unified similarity model, which selects the most relevant vulnerabilities, achieves 90.4 percent accuracy in CVE matching. AutoPatch attains 89.5 percent F1-score for vulnerability verification and 95.0 percent accuracy in patching, while being over 50x more cost-efficient than traditional fine-tuning approaches.
Abstract（参考訳）: 大規模言語モデル(LLM)はソフトウェア開発において有望なツールとして登場し、コードの自動生成と分析を可能にしている。しかし、それらの知識は一定のカットオフ日に限定されており、新たに公開されたCVEに脆弱なコードを生成する傾向がある。新しいCVEセットでの頻繁な微調整はコストがかかり、既存のLCMベースのアプローチは、過度に単純化されたCWEの例に注目し、LLMに明確なバグロケーションを提供することを必要とし、複雑な現実世界の脆弱性にパッチする能力を制限する。これらの制限に対処するため,脆弱性のあるLLM生成コード,特にLLMの知識遮断後に導入されたコードにパッチを当てるためのマルチエージェントフレームワークであるAutoPatchを提案する。 AutoPatchはRetrieval-Augmented Generation (RAG)と最近公開された脆弱性の構造化データベースを統合しており、LinuxカーネルやChromeのような現実のシステムにまたがる75の高重度CVEから派生した525のコードスニペットで構成されている。 AutoPatchはセマンティックとテイント分析を組み合わせて、最も関連性の高いCVEを特定し、強化されたChain-of-Thought(CoT)推論を活用して、検証とパッチのためのリッチなプロンプトを構築する。最も関連性の高い脆弱性を選択する統合類似性モデルは、CVEマッチングにおいて90.4%の精度を達成する。 AutoPatchは脆弱性検証のために89.5%のF1スコアを獲得し、パッチの精度は95.0パーセントに達した。

関連論文リスト

RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文参考訳（メタデータ） (2026-01-30T08:29:01Z)
ParaVul: A Parallel Large Language Model and Retrieval-Augmented Framework for Smart Contract Vulnerability Detection [43.41293570032631]
ParaVulは、スマートコントラクト脆弱性検出の信頼性と精度を向上させるための、検索強化フレームワークである。 LLM微調整のためのスパースローランド適応(SLoRA)を開発した。脆弱性契約データセットを構築し,RAG(Retrieval-Augmented Generation)システムを開発した。
論文参考訳（メタデータ） (2025-10-20T03:23:41Z)
What Do They Fix? LLM-Aided Categorization of Security Patches for Critical Memory Bugs [46.325755802511026]
我々は、LLM(Large Language Model)と細調整された小言語モデルに基づく2つのアプローチを統合するデュアルメタルパイプラインであるLMを開発した。 LMは、OOBまたはUAFの脆弱性に対処する最近のLinuxカーネルのパッチ5,140のうち111つを、手作業による検証によって90の正の正が確認された。
論文参考訳（メタデータ） (2025-09-26T18:06:36Z)
PatchSeeker: Mapping NVD Records to their Vulnerability-fixing Commits with LLM Generated Commits and Embeddings [7.646332641871716]
PatchSeekerは、脆弱性記述と脆弱性記述(VFC)の間のリッチなセマンティックリンクを作成する新しい方法である。 PatchSeekerは、NVD記述から埋め込みを生成し、短いものや非形式的なもののための詳細な要約を合成することによってコミットメッセージを強化する。我々のアプローチは、ベンチマークデータセット上で最高のパフォーマンスのベースラインであるProspectorよりも59.3%高いMRRと27.9%高いRecall@10を実現している。
論文参考訳（メタデータ） (2025-09-09T09:16:45Z)
LLMxCPG: Context-Aware Vulnerability Detection Through Code Property Graph-Guided Large Language Models [2.891351178680099]
本稿では,コードプロパティグラフ(CPG)とLarge Language Models(LLM)を統合し,堅牢な脆弱性検出を行う新しいフレームワークを提案する。より簡潔で正確なコードスニペット表現を提供するアプローチの能力は、より大きなコードセグメントの分析を可能にします。実証的な評価は、検証済みデータセット間でLLMxCPGの有効性を示し、最先端のベースラインよりもF1スコアが15～40%改善されている。
論文参考訳（メタデータ） (2025-07-22T13:36:33Z)
CyberGym: Evaluating AI Agents' Cybersecurity Capabilities with Real-World Vulnerabilities at Scale [46.76144797837242]
大規模言語モデル(LLM)エージェントは、自律的なサイバーセキュリティタスクの処理において、ますます熟練している。既存のベンチマークは不足していて、現実のシナリオをキャプチャできなかったり、スコープが限られていたりします。我々はCyberGymを紹介した。CyberGymは1,507の現実世界の脆弱性を特徴とする大規模かつ高品質なサイバーセキュリティ評価フレームワークである。
論文参考訳（メタデータ） (2025-06-03T07:35:14Z)
AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)
LLM4CVE: Enabling Iterative Automated Vulnerability Repair with Large Language Models [9.946058168276744]
大規模言語モデル(LLM)は、多くのソフトウェア欠陥が自動的にパッチを当てられる可能性を開放した。実世界のコードで脆弱な関数を高い精度で堅牢に修正する反復パイプラインを提案する。また,Llama 370Bでは,人間の検証による品質スコアが8.51/10,Llama 370Bでは20%に向上した。
論文参考訳（メタデータ） (2025-01-07T00:21:42Z)
There are More Fish in the Sea: Automated Vulnerability Repair via Binary Templates [4.907610470063863]
本稿では,Javaバイナリに対するテンプレートベースの自動脆弱性修復手法を提案する。 Vul4Jデータセットの実験では、TemVURが11の脆弱性の修正に成功した。 TemVURの一般化性を評価するため、MaryVuls4Jデータセットをキュレートする。
論文参考訳（メタデータ） (2024-11-27T06:59:45Z)
Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。 Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文参考訳（メタデータ） (2024-10-24T06:36:12Z)
APPATCH: Automated Adaptive Prompting Large Language Models for Real-World Software Vulnerability Patching [24.958856670970366]
本稿では,事前学習言語モデル(LLM)のパワーとメリットを活用し,脆弱性の自動パッチングを実現する。脆弱なコードの振る舞いを効果的に推論するために,LLMを応用するために,脆弱性セマンティックス推論と適応的プロンプトを導入する。 97のゼロデイ脆弱性と20の既存脆弱性に対するAPの評価は、既存の手法と最先端の非LLM技術の両方に優れた性能を示している。
論文参考訳（メタデータ） (2024-08-24T14:51:50Z)
PatchFinder: A Two-Phase Approach to Security Patch Tracing for Disclosed Vulnerabilities in Open-Source Software [15.867607171943698]
本稿では,エンドツーエンドの相関学習を併用した2段階のフレームワークを提案する。 PatchFinderは80.63%のRecall@10、平均相反ランク(MRR)は0.7951である。 PatchFinderを実際に適用する場合、最初は533件のパッチコミットを特定し、公式に送ったのですが、そのうち482件はCVE Numbering Authoritiesによって確認されました。
論文参考訳（メタデータ） (2024-07-24T07:46:24Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
On the Security Blind Spots of Software Composition Analysis [46.1389163921338]
Mavenリポジトリで脆弱性のあるクローンを検出するための新しいアプローチを提案する。 Maven Centralから53万以上の潜在的な脆弱性のあるクローンを検索します。検出された727個の脆弱なクローンを検出し、それぞれに検証可能な脆弱性証明プロジェクトを合成する。
論文参考訳（メタデータ） (2023-06-08T20:14:46Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。