論文の概要: A Dual-Loop Agent Framework for Automated Vulnerability Reproduction
- arxiv url: http://arxiv.org/abs/2602.05721v1
- Date: Thu, 05 Feb 2026 14:47:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.982745
- Title: A Dual-Loop Agent Framework for Automated Vulnerability Reproduction
- Title(参考訳): 自動脆弱性再現のためのデュアルループエージェントフレームワーク
- Authors: Bin Liu, Yanjie Zhao, Zhenpeng Chen, Guoai Xu, Haoyu Wang,
- Abstract要約: CVE記述から自動脆弱性再現のためのフレームワークであるCve2PoCを提案する。
Cve2PoCは617の現実世界の脆弱性をカバーするベンチマークで82.9%と54.3%の再現成功率を達成した。
人による評価では、生成されたPoCは可読性と再利用性において、人間によって書かれたエクスプロイトと同等のコード品質を実現する。
- 参考スコア(独自算出の注目度): 14.66023820412862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated vulnerability reproduction from CVE descriptions requires generating executable Proof-of-Concept (PoC) exploits and validating them in target environments. This process is critical in software security research and practice, yet remains time-consuming and demands specialized expertise when performed manually. While LLM agents show promise for automating this task, existing approaches often conflate exploring attack directions with fixing implementation details, which leads to unproductive debugging loops when reproduction fails. To address this, we propose Cve2PoC, an LLM-based dual-loop agent framework following a plan-execute-evaluate paradigm. The Strategic Planner analyzes vulnerability semantics and target code to produce structured attack plans. The Tactical Executor generates PoC code and validates it through progressive verification. The Adaptive Refiner evaluates execution results and routes failures to different loops: the \textit{Tactical Loop} for code-level refinement, while the \textit{Strategic Loop} for attack strategy replanning. This dual-loop design enables the framework to escape ineffective debugging by matching remediation to failure type. Evaluation on two benchmarks covering 617 real-world vulnerabilities demonstrates that Cve2PoC achieves 82.9\% and 54.3\% reproduction success rates on SecBench.js and PatchEval, respectively, outperforming the best baseline by 11.3\% and 20.4\%. Human evaluation confirms that generated PoCs achieve comparable code quality to human-written exploits in readability and reusability.
- Abstract(参考訳): CVE記述から自動的に脆弱性を再現するには、実行可能なProof-of-Concept(PoC)エクスプロイトを生成し、ターゲット環境で検証する必要がある。
このプロセスは、ソフトウェアセキュリティの研究と実践において重要なものだが、依然として時間がかかり、手動で行うと専門的な専門知識が要求される。
LLMエージェントは、このタスクを自動化することを約束するが、既存のアプローチでは、実装の詳細を修正して攻撃方向を探究することが多いため、再現が失敗すると非生産的なデバッグループが発生する。
そこで本研究では,LLMをベースとしたデュアルループエージェントフレームワークであるCve2PoCを提案する。
Strategic Plannerは、脆弱性のセマンティクスとターゲットコードを分析して、構造化されたアタックプランを生成する。
Tactical ExecutorはPoCコードを生成し、プログレッシブな検証を通じて検証する。
Adaptive Refinerは実行結果を評価し、異なるループに障害をルーティングする: コードレベルの改善のための \textit{Tactical Loop} 、攻撃戦略の \textit{Strategic Loop} 。
このデュアルループ設計により、フレームワークは障害タイプに修復を合わせることで、非効率なデバッグを回避できる。
617の現実世界の脆弱性をカバーする2つのベンチマークの評価は、Cve2PoCがSecBench.jsとPatchEvalでそれぞれ82.9\%と54.3\%の再現成功率を達成したことを示している。
人による評価では、生成されたPoCは可読性と再利用性において、人間によって書かれたエクスプロイトと同等のコード品質を実現する。
関連論文リスト
- The Semantic Trap: Do Fine-tuned LLMs Learn Vulnerability Root Cause or Just Functional Pattern? [14.472036099680961]
そこで我々は,脆弱性根本原因を機能パターンから切り離すための総合評価フレームワークTrapEvalを提案する。
我々は、3つのモデルファミリーにまたがる5つの最先端LCMを微調整し、それらを、CodeBLEUによって測定されたクロスデータセットテスト、セマンティック保存、および様々なセマンティックギャップの下で評価する。
従来のデータセットに対する高いベンチマークスコアは、モデルが脆弱性の真の因果論理を理解できないことを隠蔽している可能性がある。
論文 参考訳(メタデータ) (2026-01-30T07:19:17Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - StriderSPD: Structure-Guided Joint Representation Learning for Binary Security Patch Detection [22.120085662911194]
セキュリティパッチ検出(SPD)は、ソフトウェア資産を保護する。
ほとんどのSPD研究はオープンソースソフトウェア(OSS)をターゲットにしているが、実際のソフトウェアの大部分はクローズドソースである。
グラフブランチを大きな言語モデルに統合するバイナリコードのフレームワークである textbftextitStriderSPD を提案する。
論文 参考訳(メタデータ) (2026-01-09T12:55:29Z) - Trajectory Guard -- A Lightweight, Sequence-Aware Model for Real-Time Anomaly Detection in Agentic AI [0.0]
トラジェクトリガードはシームズ・リカレント・オートエンコーダであり、コントラスト学習によるタスク・トラジェクトリアライメントと、再構成によるシーケンシャル・アライメントを共同で学習するハイブリッド・ロス機能を備えている。
32ミリ秒のレイテンシで、当社のアプローチは LLM Judge のベースラインよりも17-27倍高速で動作し、実運用環境におけるリアルタイムの安全性検証を可能にします。
論文 参考訳(メタデータ) (2026-01-02T00:27:11Z) - BASICS: Binary Analysis and Stack Integrity Checker System for Buffer Overflow Mitigation [0.0]
サイバー物理システムは私たちの日常生活において重要な役割を担い、電力や水などの重要なサービスを提供してきた。
従来の脆弱性発見技術は、Cプログラムのバイナリコードに直接適用する場合、スケーラビリティと精度に苦労する。
この研究は、モデルチェックとココリック実行技術を活用することによって、これらの制限を克服するために設計された新しいアプローチを導入している。
論文 参考訳(メタデータ) (2025-11-24T20:11:41Z) - Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models [75.29749026964154]
Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。
クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
論文 参考訳(メタデータ) (2025-10-11T15:47:35Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - VulnRepairEval: An Exploit-Based Evaluation Framework for Assessing Large Language Model Vulnerability Repair Capabilities [41.85494398578654]
VulnRepairEvalは、関数型Proof-of-Conceptエクスプロイトに固定された評価フレームワークである。
我々のフレームワークは、再現可能な微分評価を可能にする包括的でコンテナ化された評価パイプラインを提供する。
論文 参考訳(メタデータ) (2025-09-03T14:06:10Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。