論文の概要: PoC-Adapt: Semantic-Aware Automated Vulnerability Reproduction with LLM Multi-Agents and Reinforcement Learning-Driven Adaptive Policy
- arxiv url: http://arxiv.org/abs/2604.06618v1
- Date: Wed, 08 Apr 2026 02:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.312175
- Title: PoC-Adapt: Semantic-Aware Automated Vulnerability Reproduction with LLM Multi-Agents and Reinforcement Learning-Driven Adaptive Policy
- Title(参考訳): PoC-Adapt: LLMマルチエージェントによるセマンティック・アウェア自動脆弱性再現と強化学習型適応政策
- Authors: Phan The Duy, Nguyen Viet Duy, Khoa Ngo-Khanh, Nguyen Huu Quyen, Van-Hau Pham,
- Abstract要約: 自動PoC生成と検証のためのエンドツーエンドフレームワークであるPoC-Adaptを提案する。
PoC-Adaptは、基本的なセマンティックランタイムバリデーションとアダプティブポリシー学習に基づいて設計されている。
実験によると、PoC-Adaptは信頼性を25%向上し、エクスプロイト生成コストを低減している。
- 参考スコア(独自算出の注目度): 0.44739156031315913
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While recent approaches leverage large language models (LLMs) and multi-agent pipelines to automatically generate proof-of-concept (PoC) exploits from vulnerability reports, existing systems often suffer from two fundamental limitations: unreliable validation based on surface-level execution signals and high operational cost caused by extensive trial-and-error during exploit generation. In this paper, we present PoC-Adapt, an end-to-end framework for automated PoC generation and verification, architected upon a foundation semantic runtime validation and adaptive policy learning. At the core of PoC-Adapt is a Semantic Oracle that validates exploits by comparing structured pre- and post-execution system states, enabling reliable distinction between true vulnerability exploitation and incidental behavioral changes. To reduce exploration cost, we further introduce an Adaptive Policy Learning mechanism that learns an exploitation policy over semantic states and actions, guiding the exploit agent toward effective strategies with fewer failed attempts. PoC-Adapt is implemented as a multi-agent system comprising specialized agents for root cause analysis, environment building, exploit generation, and semantic validation, coordinated through structured feedback loops. Experimenting on the CWE-Bench-Java and PrimeVul benchmarks shows that PoC-Adapt significantly improves verification reliability by 25% and reduces exploit generation cost compared to prior LLM-based systems, highlighting the importance of semantic validation and learned action policies in automated vulnerability reproduction. Applied to the latest CVE corpus, PoC-Adapt confirmed 12 verified PoC out of 80 reproduce attempts at a cost of $0.42 per generated exploit
- Abstract(参考訳): 最近のアプローチでは、大規模な言語モデル(LLM)とマルチエージェントパイプラインを活用して、脆弱性レポートから概念実証(PoC)エクスプロイトを自動的に生成するが、既存のシステムは、表面レベルの実行信号に基づく信頼性の低い検証と、エクスプロイト生成時の大規模なトライ・アンド・エラーによる運用コストの2つの基本的な制限に悩まされている。
本稿では,PoCの自動生成と検証のためのエンドツーエンドフレームワークであるPoC-Adaptについて述べる。
PoC-Adaptの中核にあるSemantic Oracleは、構造化された事前実行システムと後実行システムの状態を比較してエクスプロイトを検証する。
探索コストを削減するために,意味的状態や行動に対する搾取ポリシーを学習する適応的政策学習機構を導入する。
PoC-Adaptは、ルート原因分析、環境構築、エクスプロイト生成、セマンティックバリデーションのための特別なエージェントからなるマルチエージェントシステムとして実装され、構造化されたフィードバックループを介して調整される。
CWE-Bench-Java と PrimeVul のベンチマークでの実験では、PoC-Adapt は検証信頼性を25%向上し、従来の LLM ベースのシステムと比較してエクスプロイト生成コストを低減し、セマンティック検証の重要性と自動脆弱性再現における学習アクションポリシーを強調している。
最新のCVEコーパスに適用されたPoC-Adaptは、80個の再生試行のうち12個のPoCを、生成されたエクスプロイト当たり0.42ドルで確認した。
関連論文リスト
- SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。
しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。
我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文 参考訳(メタデータ) (2026-04-04T04:29:11Z) - CaP-X: A Framework for Benchmarking and Improving Coding Agents for Robot Manipulation [48.85772216740915]
"Code-as-Policy" は、実行可能コードがデータ集約型のVision-Language-Actionメソッドを補完する方法について考察している。
ロボット操作におけるCode-as-PolicyエージェントのオープンアクセスフレームワークであるCaP-Xを提案する。
論文 参考訳(メタデータ) (2026-03-23T18:08:10Z) - Execution-State-Aware LLM Reasoning for Automated Proof-of-Vulnerability Generation [36.950993500170014]
本稿では,PoV生成を反復的仮説検証法として再構成するエージェントフレームワークであるDrillAgentを提案する。
我々は、実世界のC/C++脆弱性の大規模なベンチマークであるSEC-bench上でDrillAgentを評価する。
論文 参考訳(メタデータ) (2026-02-14T03:17:27Z) - Co-RedTeam: Orchestrated Security Discovery and Exploitation with LLM Agents [57.49020237126194]
大規模言語モデル(LLM)はサイバーセキュリティタスクを支援することを約束しているが、既存のアプローチでは自動脆弱性発見とエクスプロイトに苦労している。
Co-RedTeamは,現実世界のレッドチームのミラーリングを目的とした,セキュリティを意識したマルチエージェントフレームワークである。
Co-RedTeamは、脆弱性分析をコーディネートされた発見およびエクスプロイトステージに分解し、エージェントがアクションを計画、実行、検証、洗練できるようにする。
論文 参考訳(メタデータ) (2026-02-02T14:38:45Z) - An Empirical Evaluation of LLM-Based Approaches for Code Vulnerability Detection: RAG, SFT, and Dual-Agent Systems [1.5216960763930782]
LLM(Large Language Models)の急速な進歩は、自動ソフトウェア脆弱性検出の新しい機会を提供する。
本稿では,ソフトウェア脆弱性検出のためのLLM技術の有効性について比較検討する。
論文 参考訳(メタデータ) (2026-01-01T08:05:51Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - VulnRepairEval: An Exploit-Based Evaluation Framework for Assessing Large Language Model Vulnerability Repair Capabilities [41.85494398578654]
VulnRepairEvalは、関数型Proof-of-Conceptエクスプロイトに固定された評価フレームワークである。
我々のフレームワークは、再現可能な微分評価を可能にする包括的でコンテナ化された評価パイプラインを提供する。
論文 参考訳(メタデータ) (2025-09-03T14:06:10Z) - A Generative Framework for Low-Cost Result Validation of Machine Learning-as-a-Service Inference [4.478182379059458]
FidesはML-as-a-Service(ML)推論のリアルタイム整合性検証のための新しいフレームワークである。
Fidesは、統計的分析とばらつき測定を使用して、サービスモデルが攻撃を受けている場合、高い確率で識別するクライアント側攻撃検出モデルを備えている。
攻撃検出と再分類モデルの訓練のための生成的逆ネットワークフレームワークを考案した。
論文 参考訳(メタデータ) (2023-03-31T19:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。