論文の概要: Multi-Agent End-to-End Vulnerability Management for Mitigating Recurring Vulnerabilities
- arxiv url: http://arxiv.org/abs/2601.17762v1
- Date: Sun, 25 Jan 2026 09:35:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.322642
- Title: Multi-Agent End-to-End Vulnerability Management for Mitigating Recurring Vulnerabilities
- Title(参考訳): 再帰脆弱性の緩和のためのマルチエージェントエンドツーエンド脆弱性管理
- Authors: Zelong Zheng, Jiayuan Zhou, Xing Hu, Yi Gao, Shengyi Pan,
- Abstract要約: 従来の静的解析手法はコンテキスト依存を正確に捉えるのに苦労する。
コードの再利用と共有ロジックにより、繰り返し脆弱性が発生する。
エンド・ツー・エンドの繰り返し脆弱性管理のためのマルチエージェントフレームワークであるMAVMを提案する。
- 参考スコア(独自算出の注目度): 9.2997229083124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software vulnerability management has become increasingly critical as modern systems scale in size and complexity. However, existing automated approaches remain insufficient. Traditional static analysis methods struggle to precisely capture contextual dependencies, especially when vulnerabilities span multiple functions or modules. Large language models (LLMs) often lack the ability to retrieve and exploit sufficient contextual information, resulting in incomplete reasoning and unreliable outcomes. Meanwhile, recurring vulnerabilities emerge repeatedly due to code reuse and shared logic, making historical vulnerability knowledge an indispensable foundation for effective vulnerability detection and repair. Nevertheless, prior approaches such as clone-based detection and patch porting, have not fully leveraged this knowledge. To address these challenges, we present MAVM, a multi-agent framework for end-to-end recurring vulnerability management. MAVM integrates five components, including a vulnerability knowledge base, detection, confirmation, repair, and validation, into a unified multi-agent pipeline. We construct a knowledge base from publicly disclosed vulnerabilities, thereby addressing the underuse of historical knowledge in prior work and mitigating the lack of domain-specific expertise in LLMs. Furthermore, we design context-retrieval tools that allow agents to extract and reason over repository-level information, overcoming the contextual limitations of previous methods. Based on agents, MAVM effectively simulates real-world security workflows. To evaluate the performance of MAVM, we construct a dataset containing 78 real-world patch-porting cases (covering 114 function-level migrations). On this dataset, MAVM successfully detects and repairs 51 real vulnerabilities, outperforming baselines by 31.9%-45.2% in repair accuracy, which demonstrates its effectiveness.
- Abstract(参考訳): ソフトウェア脆弱性の管理は、現代のシステムがサイズと複雑さをスケールするにつれてますます重要になっている。
しかし、既存の自動化アプローチは依然として不十分である。
従来の静的解析手法は、特に脆弱性が複数の関数やモジュールにまたがる場合、コンテキスト依存を正確にキャプチャするのに苦労する。
大規模言語モデル(LLM)は、十分な文脈情報を取得して活用する能力に欠けることが多く、不完全な推論と信頼性の低い結果をもたらす。
一方、コードの再利用と共有ロジックによって繰り返し発生する脆弱性は、過去の脆弱性知識を効果的な脆弱性検出と修復のための必須の基盤にする。
それにもかかわらず、クローンベースの検出やパッチポーティングといった以前のアプローチでは、この知識を十分に活用できていない。
これらの課題に対処するため,エンド・ツー・エンドの繰り返し脆弱性管理のためのマルチエージェントフレームワークであるMAVMを提案する。
MAVMは脆弱性知識ベース、検出、確認、修復、検証の5つのコンポーネントを統合されたマルチエージェントパイプラインに統合する。
我々は,公開脆弱性から知識基盤を構築し,過去の作業における歴史的知識の不足に対処し,LLMにおけるドメイン固有の専門知識の欠如を軽減した。
さらに,従来の手法のコンテキスト制限を克服して,エージェントがリポジトリレベルの情報を抽出し,推論できるコンテキスト検索ツールを設計する。
MAVMはエージェントに基づいて、現実世界のセキュリティワークフローを効果的にシミュレートする。
MAVMの性能を評価するために,78の現実世界のパッチポーティングケースを含むデータセットを構築した。
このデータセットで、MAVMは51の実際の脆弱性を検出し、修復し、ベースラインを31.9%から45.2%上回った。
関連論文リスト
- Scalable and Robust LLM Unlearning by Correcting Responses with Retrieved Exclusions [49.55618517046225]
Webスケールのコーパスリスクを記憶し、センシティブな情報を暴露する言語モデル。
本稿では,新しいアンラーニングフレームワークであるCorrective Unlearning with Retrieved Exclusions (CURE)を提案する。
CUREは、リークのモデル出力を確認し、安全な応答に修正する。
論文 参考訳(メタデータ) (2025-09-30T09:07:45Z) - Automated Vulnerability Validation and Verification: A Large Language Model Approach [7.482522010482827]
本稿では、生成AI、特に大規模言語モデル(LLM)を利用したエンドツーエンド多段階パイプラインを提案する。
本手法は,国立脆弱性データベース(National Vulnerability Database)のCVE開示情報から抽出する。
これは、Retrieval-Augmented Generation (RAG)を使用して、外部の公開知識(例えば、脅威アドバイザリ、コードスニペット)で拡張する。
パイプラインは生成されたアーティファクトを反復的に洗練し、テストケースでのアタック成功を検証し、複雑なマルチコンテナセットアップをサポートする。
論文 参考訳(メタデータ) (2025-09-28T19:16:12Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Weakly Supervised Vulnerability Localization via Multiple Instance Learning [46.980136742826836]
WeAkly によるマルチプルインスタンス学習による脆弱性ローカライゼーションのための WAVES という新しい手法を提案する。
WAVESは、ある関数が脆弱かどうか(すなわち脆弱性検出)を判定し、脆弱なステートメントをピンポイントする機能を持っている。
提案手法は,文レベルの脆弱性ローカライゼーションにおいて,脆弱性検出と最先端のパフォーマンスにおいて同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-14T15:11:39Z) - VulnRepairEval: An Exploit-Based Evaluation Framework for Assessing Large Language Model Vulnerability Repair Capabilities [41.85494398578654]
VulnRepairEvalは、関数型Proof-of-Conceptエクスプロイトに固定された評価フレームワークである。
我々のフレームワークは、再現可能な微分評価を可能にする包括的でコンテナ化された評価パイプラインを提供する。
論文 参考訳(メタデータ) (2025-09-03T14:06:10Z) - CyberGym: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale [45.97598662617568]
我々は188のソフトウェアプロジェクトにわたる1,507の実際の脆弱性を特徴とする大規模ベンチマークであるCyberGymを紹介した。
我々はCyberGymが35のゼロデイ脆弱性と17の歴史的不完全なパッチを発見できることを示した。
これらの結果は、CyberGymは、サイバーセキュリティにおけるAIの進歩を測定するための堅牢なベンチマークであるだけでなく、直接的な現実世界のセキュリティ効果を生み出すためのプラットフォームでもあることを強調している。
論文 参考訳(メタデータ) (2025-06-03T07:35:14Z) - Code Change Intention, Development Artifact and History Vulnerability: Putting Them Together for Vulnerability Fix Detection by LLM [13.278153690972243]
VulFixMinerとCoLeFunDaは、開発アーティファクトから必須のコンテキストを無視して、コードの変更のみに焦点を当てている。
LLM4VFD(Large Language Models (LLMs)) とChain-of-Thought推論とIn-Context Learningを併用した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-24T23:40:03Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - How Far Have We Gone in Vulnerability Detection Using Large Language
Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。
このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。
いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-21T08:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。