論文の概要: RuleForge: Automated Generation and Validation for Web Vulnerability Detection at Scale
- arxiv url: http://arxiv.org/abs/2604.01977v1
- Date: Thu, 02 Apr 2026 12:39:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.786193
- Title: RuleForge: Automated Generation and Validation for Web Vulnerability Detection at Scale
- Title(参考訳): RuleForge: 大規模Web脆弱性検出のための自動生成と検証
- Authors: Ayush Garg, Sophia Hager, Jacob Montiel, Aditya Tiwari, Michael Gentile, Zach Reavis, David Magnotti, Wayne Fullen,
- Abstract要約: RuleForgeは、自動的に検出ルールを生成する内部システムである。
Nucleiテンプレートは標準化されたYAMLベースの脆弱性記述を提供する。
本稿では,CVE関連脅威検出のためのルールForgeのアーキテクチャと運用展開について述べる。
- 参考スコア(独自算出の注目度): 0.7984143184685065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Security teams face a challenge: the volume of newly disclosed Common Vulnerabilities and Exposures (CVEs) far exceeds the capacity to manually develop detection mechanisms. In 2025, the National Vulnerability Database published over 48,000 new vulnerabilities, motivating the need for automation. We present RuleForge, an AWS internal system that automatically generates detection rules--JSON-based patterns that identify malicious HTTP requests exploiting specific vulnerabilities--from structured Nuclei templates describing CVE details. Nuclei templates provide standardized, YAML-based vulnerability descriptions that serve as the structured input for our rule generation process. This paper focuses on RuleForge's architecture and operational deployment for CVE-related threat detection, with particular emphasis on our novel LLM-as-a-judge (Large Language Model as judge) confidence validation system and systematic feedback integration mechanism. This validation approach evaluates candidate rules across two dimensions--sensitivity (avoiding false negatives) and specificity (avoiding false positives)--achieving AUROC of 0.75 and reducing false positives by 67% compared to synthetic-test-only validation in production. Our 5x5 generation strategy (five parallel candidates with up to five refinement attempts each) combined with continuous feedback loops enables systematic quality improvement. We also present extensions enabling rule generation from unstructured data sources and demonstrate a proof-of-concept agentic workflow for multi-event-type detection. Our lessons learned highlight critical considerations for applying LLMs to cybersecurity tasks, including overconfidence mitigation and the importance of domain expertise in both prompt design and quality review of generated rules through human-in-the-loop validation.
- Abstract(参考訳): 新たに公開されたCommon Vulnerabilities and Exposures(CVE)のボリュームは、手動で検出メカニズムを開発する能力を超えています。
2025年、National Vulnerability Databaseは48,000以上の新たな脆弱性を公開した。
これは、CVEの詳細を記述する構造化Nucleiテンプレートから、特定の脆弱性を利用する悪意のあるHTTPリクエストを識別するJSONベースのパターンを自動的に検出するAWS内部システムである。
NucleiテンプレートはYAMLベースの標準的な脆弱性記述を提供し、ルール生成プロセスの構造化インプットとして機能します。
本稿では,CVE関連脅威検出のためのルールForgeのアーキテクチャと運用展開,特に新たなLLM-as-a-judge(Large Language Model as judge)の信頼性検証システムと系統的フィードバック統合機構に注目した。
この検証手法は, 感度(偽陰性回避)と特異性(偽陽性回避)の2次元にわたる候補規則を評価する。
当社の5x5生成戦略(5つの並列候補がそれぞれ最大5つの改善試行を行う)と継続的フィードバックループの組み合わせは,体系的な品質改善を可能にします。
また、構造化されていないデータソースからルール生成を可能にする拡張を提案し、マルチイベント型検出のための概念実証エージェントワークフローを示す。
我々の教訓は、LLMをサイバーセキュリティタスクに適用するための重要な考慮事項、例えば、ヒューマン・イン・ザ・ループ・バリデーションを通じて生成されたルールの迅速な設計と品質レビューにおいて、過剰な自信の緩和とドメインの専門知識の重要性などである。
関連論文リスト
- Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - CREDIT: Certified Ownership Verification of Deep Neural Networks Against Model Extraction Attacks [54.04030169323115]
我々は、モデル抽出攻撃(MEA)に対する認証された所有権検証であるCREDITを紹介する。
DNNモデル間の類似性を定量化し、実用的な検証しきい値を提案し、このしきい値に基づいてオーナシップ検証を行うための厳密な理論的保証を提供する。
我々は、さまざまなドメインやタスクにまたがるいくつかの主流データセットに対するアプローチを広範囲に評価し、最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2026-02-23T23:36:25Z) - Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification [71.98473277917962]
近年のDeep Research Agents (DRA) の進歩は、自動知識発見と問題解決に変化をもたらしている。
本稿では,政策モデルのアウトプットを反復的に検証することで,エージェントの能力を自己進化させる手法を提案する。
検証の非対称性を生かしたルーブリックスに基づく結果報酬検証器であるDeepVerifierを提案する。
論文 参考訳(メタデータ) (2026-01-22T09:47:31Z) - Automated Red-Teaming Framework for Large Language Model Security Assessment: A Comprehensive Attack Generation and Detection System [4.864011355064205]
本稿では,大規模言語モデル(LLM)におけるセキュリティ脆弱性を明らかにするための,敵のプロンプトを生成し,実行し,評価する自動リピートフレームワークを提案する。
本フレームワークは,メタプロンプトに基づく攻撃合成,マルチモーダル脆弱性検出,および6つの主要な脅威カテゴリにまたがる標準化された評価プロトコルを統合する。
GPT-OSS-20Bモデルの実験では、21の重大度と12の新たな攻撃パターンを含む47の異なる脆弱性が明らかになった。
論文 参考訳(メタデータ) (2025-12-21T19:12:44Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - VulnRepairEval: An Exploit-Based Evaluation Framework for Assessing Large Language Model Vulnerability Repair Capabilities [41.85494398578654]
VulnRepairEvalは、関数型Proof-of-Conceptエクスプロイトに固定された評価フレームワークである。
我々のフレームワークは、再現可能な微分評価を可能にする包括的でコンテナ化された評価パイプラインを提供する。
論文 参考訳(メタデータ) (2025-09-03T14:06:10Z) - A Multi-Dataset Evaluation of Models for Automated Vulnerability Repair [2.7674959824386858]
本研究では、6つのデータセットと4つの言語にまたがる自動脆弱性パッチのための事前訓練された言語モデルであるCodeBERTとCodeT5について検討する。
それらの精度と一般化を未知の脆弱性に対して評価する。
結果は、両方のモデルが断片化やスパースなコンテキストで課題に直面しているのに対して、CodeBERTはそのようなシナリオでは比較的優れたパフォーマンスを示し、CodeT5は複雑な脆弱性パターンのキャプチャに優れていることを示している。
論文 参考訳(メタデータ) (2025-06-05T13:00:19Z) - CryptoFormalEval: Integrating LLMs and Formal Verification for Automated Cryptographic Protocol Vulnerability Detection [41.94295877935867]
我々は,新たな暗号プロトコルの脆弱性を自律的に識別する大規模言語モデルの能力を評価するためのベンチマークを導入する。
私たちは、新しい、欠陥のある通信プロトコルのデータセットを作成し、AIエージェントが発見した脆弱性を自動的に検証する方法を設計しました。
論文 参考訳(メタデータ) (2024-11-20T14:16:55Z) - Automated Proof Generation for Rust Code via Self-Evolution [69.25795662658356]
私たちは、Rustコードの自動証明生成を可能にする、人書きスニペットの欠如を克服するフレームワークであるSAFEを紹介します。
SAFEは、細調整されたモデルの自己老化能力を訓練するために、多数の合成不正確な証明を再利用する。
我々は、人間の専門家によるベンチマークで52.52%の精度で達成し、GPT-4oのパフォーマンス14.39%を大きく上回った。
論文 参考訳(メタデータ) (2024-10-21T08:15:45Z) - Security Vulnerability Detection with Multitask Self-Instructed Fine-Tuning of Large Language Models [8.167614500821223]
脆弱性検出のためのMSIVD, マルチタスクによる自己指示型微調整を, チェーン・オブ・シント・プロンプトとLDMによる自己指示にインスパイアした。
実験の結果,MSIVDは高い性能を示し,LineVul(LLMベースの脆弱性検出ベースライン)はBigVulデータセットでは0.92点,PreciseBugsデータセットでは0.48点であった。
論文 参考訳(メタデータ) (2024-06-09T19:18:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。