Fugu-MT 論文翻訳(概要): Execution-State-Aware LLM Reasoning for Automated Proof-of-Vulnerability Generation

論文の概要: Execution-State-Aware LLM Reasoning for Automated Proof-of-Vulnerability Generation

arxiv url: http://arxiv.org/abs/2602.13574v1
Date: Sat, 14 Feb 2026 03:17:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-17 14:17:28.214149
Title: Execution-State-Aware LLM Reasoning for Automated Proof-of-Vulnerability Generation
Title（参考訳）: 自動脆弱性発生のための実行状態対応LDM推論
Authors: Haoyu Li, Xijia Che, Yanhao Wang, Xiaojing Liao, Luyi Xing,
Abstract要約: 本稿では,PoV生成を反復的仮説検証法として再構成するエージェントフレームワークであるDrillAgentを提案する。我々は、実世界のC/C++脆弱性の大規模なベンチマークであるSEC-bench上でDrillAgentを評価する。
参考スコア（独自算出の注目度）: 36.950993500170014
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Proof-of-Vulnerability (PoV) generation is a critical task in software security, serving as a cornerstone for vulnerability validation, false positive reduction, and patch verification. While directed fuzzing effectively drives path exploration, satisfying complex semantic constraints remains a persistent bottleneck in automated exploit generation. Large Language Models (LLMs) offer a promising alternative with their semantic reasoning capabilities; however, existing LLM-based approaches lack sufficient grounding in concrete execution behavior, limiting their ability to generate precise PoVs. In this paper, we present DrillAgent, an agentic framework that reformulates PoV generation as an iterative hypothesis-verification-refinement process. To bridge the gap between static reasoning and dynamic execution, DrillAgent synergizes LLM-based semantic inference with feedback from concrete program states. The agent analyzes the target code to hypothesize inputs, observes execution behavior, and employs a novel mechanism to translate low-level execution traces into source-level constraints. This closed-loop design enables the agent to incrementally align its input generation with the precise requirements of the vulnerability. We evaluate DrillAgent on SEC-bench, a large-scale benchmark of real-world C/C++ vulnerabilities. Experimental results show that DrillAgent substantially outperforms state-of-the-art LLM agent baselines under fixed budget constraints, solving up to 52.8% more CVE tasks than the best-performing baseline. These results highlight the necessity of execution-state-aware reasoning for reliable PoV generation in complex software systems.
Abstract（参考訳）: Proof-of-Vulnerability (PoV) 生成はソフトウェアセキュリティにおいて重要なタスクであり、脆弱性検証、偽陽性の低減、パッチ検証の基盤となる。誘導ファジィングはパス探索を効果的に進めるが、複雑なセマンティック制約を満たすことは、自動エクスプロイト生成における永続的なボトルネックである。 LLM(Large Language Models)は、セマンティック推論機能を備えた有望な代替手段を提供するが、既存のLLMベースのアプローチでは、具体的な実行動作に十分な基盤がなく、正確なPoVを生成する能力が制限されている。本稿では,PoV生成を反復的仮説検証・修正プロセスとして再構成するエージェントフレームワークであるDrillAgentを提案する。静的推論と動的実行のギャップを埋めるために、DrillAgentは具体的なプログラム状態からのフィードバックでLLMベースのセマンティック推論をシナジする。エージェントはターゲットコードを解析して入力を仮説化し、実行動作を観察し、低レベルの実行トレースをソースレベルの制約に変換するための新しいメカニズムを使用する。このクローズドループ設計により、エージェントは入力生成を脆弱性の正確な要件とインクリメンタルに整合させることができる。我々は、実世界のC/C++脆弱性の大規模なベンチマークであるSEC-bench上でDrillAgentを評価する。実験の結果,DrillAgentは固定予算制約下において,最先端のLCMエージェントのベースラインを著しく上回り,最高性能のベースラインよりも最大52.8%のCVEタスクを解決した。これらの結果は、複雑なソフトウェアシステムにおいて、信頼性の高いPoV生成のための実行状態対応推論の必要性を浮き彫りにしている。

関連論文リスト

The Landscape of Prompt Injection Threats in LLM Agents: From Taxonomy to Analysis [24.51410516475904]
The Prompt Injection (PI) landscape, including attack, Defenses, and their evaluation practices。我々は,コンテキストに依存したインタラクション設定下でエージェントの振る舞いを体系的に評価する新しいベンチマークであるAgentPIを紹介する。我々は,文脈依存推論が不可欠である現実的なエージェント設定に一般化することができないが,文脈依存的入力を抑えることで,既存のベンチマークにおいて多くの防御が有効であることを示す。
論文参考訳（メタデータ） (2026-02-11T02:47:10Z)
ARTIS: Agentic Risk-Aware Test-Time Scaling via Iterative Simulation [72.78362530982109]
ARTIS(Agenic Risk-Aware Test-Time Scaling via Iterative Simulation)は、コミットメントから探索を分離するフレームワークである。 LLMをベースとした簡易シミュレータは, 希少かつ高インパクトな障害モードの捕捉に苦慮していることを示す。本稿では,障害発生行動の忠実度を強調するリスク認識ツールシミュレータを提案する。
論文参考訳（メタデータ） (2026-02-02T06:33:22Z)
Veri-Sure: A Contract-Aware Multi-Agent Framework with Temporal Tracing and Formal Verification for Correct RTL Code Generation [4.723302382132762]
シリコングレードの正しさは、 (i) シミュレーション中心の評価の限られたカバレッジと信頼性、 (ii) 回帰と修復幻覚、 (iii) エージェントハンドオフ間で意図が再解釈される意味的ドリフトによってボトルネックが残っている。エージェントの意図を整合させる設計契約を確立するマルチエージェントフレームワークであるVeri-Sureを提案する。
論文参考訳（メタデータ） (2026-01-27T16:10:23Z)
Sponge Tool Attack: Stealthy Denial-of-Efficiency against Tool-Augmented Agentic Reasoning [58.432996881401415]
最近の作業では、エージェント推論を可能にするために、外部ツールで大きな言語モデル(LLM)を拡張している。本稿では,入力プロンプトを書き換えることのみでエージェント推論を妨害するスポンジツールアタック(STA)を提案する。 STAは、意味的忠実度の高い原文からの良心的な即興的な書き直しを生成する。
論文参考訳（メタデータ） (2026-01-24T19:36:51Z)
VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension [51.76841625486355]
Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
論文参考訳（メタデータ） (2026-01-19T07:21:19Z)
AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering [8.201374511929538]
AgentDevelは、現行のエージェントを反復的に実行するリリースエンジニアリングパイプラインである。実行トレースから実装盲の症状レベルの品質信号を生成する。主要な症状パターンを集約し、監査可能なエンジニアリング仕様を生成する。
論文参考訳（メタデータ） (2026-01-08T05:49:01Z)
Agentic AI for Autonomous Defense in Software Supply Chain Security: Beyond Provenance to Vulnerability Mitigation [0.0]
本論文は,自律型ソフトウェアサプライチェーンセキュリティに基づくエージェント人工知能(AI)の例を含む。大規模言語モデル(LLM)ベースの推論、強化学習(RL)、マルチエージェント調整を組み合わせている。その結果、エージェントAIは、自己防衛的で積極的なソフトウェアサプライチェーンへの移行を促進することが示されている。
論文参考訳（メタデータ） (2025-12-29T14:06:09Z)
VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文参考訳（メタデータ） (2025-09-15T02:25:38Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Benchmarking LLMs and LLM-based Agents in Practical Vulnerability Detection for Code Repositories [8.583591493627276]
JitVulは、各関数をその脆弱性導入とコミットの修正にリンクする脆弱性検出ベンチマークである。思考・行動・観察と相互言語的文脈を活用するReAct Agentsは,良性のあるコードと区別する上で,LLMよりも優れた性能を示すことを示す。
論文参考訳（メタデータ） (2025-03-05T15:22:24Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。