論文の概要: CyberSleuth: Autonomous Blue-Team LLM Agent for Web Attack Forensics
- arxiv url: http://arxiv.org/abs/2508.20643v1
- Date: Thu, 28 Aug 2025 10:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.340722
- Title: CyberSleuth: Autonomous Blue-Team LLM Agent for Web Attack Forensics
- Title(参考訳): CyberSleuth: Web攻撃鑑定のための自律的なBlue-Team LLMエージェント
- Authors: Stefano Fumero, Kai Huang, Matteo Boffa, Danilo Giordano, Marco Mellia, Zied Ben Houidi, Dario Rossi,
- Abstract要約: 大きな言語モデル(LLM)エージェントは複雑なタスクを自動化する強力なツールである。
本研究は,現実的なWebアプリケーション攻撃の法医学的調査のためのLLMエージェント設計の体系的研究である。
我々は,パケットレベルのトレースとアプリケーションログを処理する自律エージェントCyberSleuthを提案する。
- 参考スコア(独自算出の注目度): 6.749559613197707
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Model (LLM) agents are powerful tools for automating complex tasks. In cybersecurity, researchers have primarily explored their use in red-team operations such as vulnerability discovery and penetration tests. Defensive uses for incident response and forensics have received comparatively less attention and remain at an early stage. This work presents a systematic study of LLM-agent design for the forensic investigation of realistic web application attacks. We propose CyberSleuth, an autonomous agent that processes packet-level traces and application logs to identify the targeted service, the exploited vulnerability (CVE), and attack success. We evaluate the consequences of core design decisions - spanning tool integration and agent architecture - and provide interpretable guidance for practitioners. We benchmark four agent architectures and six LLM backends on 20 incident scenarios of increasing complexity, identifying CyberSleuth as the best-performing design. In a separate set of 10 incidents from 2025, CyberSleuth correctly identifies the exact CVE in 80% of cases. At last, we conduct a human study with 22 experts, which rated the reports of CyberSleuth as complete, useful, and coherent. They also expressed a slight preference for DeepSeek R1, a good news for open source LLM. To foster progress in defensive LLM research, we release both our benchmark and the CyberSleuth platform as a foundation for fair, reproducible evaluation of forensic agents.
- Abstract(参考訳): 大きな言語モデル(LLM)エージェントは複雑なタスクを自動化する強力なツールである。
サイバーセキュリティにおいて、研究者は主に脆弱性発見や侵入テストのようなレッドチームでの運用について研究してきた。
インシデント対応と法医学に対する防御的使用は、比較的注意を引いており、初期段階に留まっている。
本研究は,現実的なWebアプリケーション攻撃の法医学的調査のためのLLMエージェント設計の体系的研究である。
我々は,パケットレベルのトレースとアプリケーションログを処理する自律エージェントCyberSleuthを提案する。
私たちは、ツール統合とエージェントアーキテクチャにまたがる中核設計決定の結果を評価し、実践者に対して解釈可能なガイダンスを提供します。
4つのエージェントアーキテクチャと6つのLDMバックエンドを20のインシデントシナリオでベンチマークし、CyberSleuthを最高のパフォーマンス設計とみなした。
2025年からの10件のインシデントで、CyberSleuthは80%のケースで正確なCVEを正しく特定した。
最後に、22人の専門家による人間による研究を行い、CyberSleuthの報告を完全で有用で一貫性のあるものと評価した。
彼らはまた、オープンソースのLLMにとって良いニュースであるDeepSeek R1を少し好んだ。
防衛LDM研究の進展を促進するため,我々のベンチマークとCyberSleuthプラットフォームを公正かつ再現可能な法定エージェント評価の基礎として公開する。
関連論文リスト
- Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - CyberRAG: An agentic RAG cyber attack classification and reporting tool [1.0345929832241807]
CyberRAGは、リアルタイムで分類、説明、構造化されたサイバー攻撃の報告を提供するモジュール型のエージェントベースのフレームワークである。
従来のRAGシステムとは異なり、CyberRAGは動的制御フローと適応推論を可能にするエージェント設計を採用している。
サイバーRAGは1クラスあたり94%以上の精度で評価され、最終分類の精度は94.92%に向上した。
論文 参考訳(メタデータ) (2025-07-03T08:32:19Z) - CyberGym: Evaluating AI Agents' Cybersecurity Capabilities with Real-World Vulnerabilities at Scale [46.76144797837242]
大規模言語モデル(LLM)エージェントは、自律的なサイバーセキュリティタスクの処理において、ますます熟練している。
既存のベンチマークは不足していて、現実のシナリオをキャプチャできなかったり、スコープが限られていたりします。
我々はCyberGymを紹介した。CyberGymは1,507の現実世界の脆弱性を特徴とする大規模かつ高品質なサイバーセキュリティ評価フレームワークである。
論文 参考訳(メタデータ) (2025-06-03T07:35:14Z) - The Hidden Dangers of Browsing AI Agents [0.0]
本稿では,複数のアーキテクチャ層にまたがるシステム的脆弱性に着目し,このようなエージェントの総合的なセキュリティ評価を行う。
本研究は,ブラウジングエージェントのエンド・ツー・エンドの脅威モデルについて概説し,実環境への展開を確保するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-05-19T13:10:29Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。