論文の概要: Before You Hand Over the Wheel: Evaluating LLMs for Security Incident Analysis
- arxiv url: http://arxiv.org/abs/2603.06422v1
- Date: Fri, 06 Mar 2026 15:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.188316
- Title: Before You Hand Over the Wheel: Evaluating LLMs for Security Incident Analysis
- Title(参考訳): ハンドルを乗り越える前に:セキュリティインシデント分析のためのLLMの評価
- Authors: Sourov Jajodia, Madeena Sultana, Suryadipta Majumdar, Adrian Taylor, Grant Vandenberghe,
- Abstract要約: セキュリティインシデント分析は、セキュリティ運用センターにとって大きな課題となる。
本稿では,セキュリティインシデント分析のためのエージェント評価フレームワークであるSIABENCHを紹介する。
- 参考スコア(独自算出の注目度): 1.6786702848693926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Security incident analysis (SIA) poses a major challenge for security operations centers, which must manage overwhelming alert volumes, large and diverse data sources, complex toolchains, and limited analyst expertise. These difficulties intensify because incidents evolve dynamically and require multi-step, multifaceted reasoning. Although organizations are eager to adopt Large Language Models (LLMs) to support SIA, the absence of rigorous benchmarking creates significant risks for assessing their effectiveness and guiding design decisions. Benchmarking is further complicated by: (i) the lack of an LLM-ready dataset covering a wide spectrum of SIA tasks; (ii) the continual emergence of new tasks reflecting the diversity of analyst responsibilities; and (iii) the rapid release of new LLMs that must be incorporated into evaluations. In this paper, we address these challenges by introducing SIABENCH, an agentic evaluation framework for security incident analysis. First, we construct a first-of-its-kind dataset comprising two major SIA task categories: (i) deep analysis workflows for security incidents (25 scenarios) and (ii) alert-triage tasks (135 scenarios). Second, we implement an agent capable of autonomously performing a broad spectrum of SIA tasks (including network and memory forensics, malware analysis across binary/code/PDF formats, phishing email and kit analysis, log analysis, and false-alert detection). Third, we benchmark 11 major LLMs (spanning both open- and closed-weight models) on these tasks, with extensibility to support emerging models and newly added analysis scenarios.
- Abstract(参考訳): セキュリティインシデント分析(SIA)は、圧倒的な警告ボリューム、大規模で多様なデータソース、複雑なツールチェーン、限られたアナリストの専門知識を管理する必要がある、セキュリティ運用センターにとって大きな課題となる。
これらの困難は、インシデントが動的に進化し、多段階の多面的推論を必要とするため、強化される。
組織は、SIAをサポートするためにLarge Language Models(LLM)を採用することを熱望していますが、厳格なベンチマークが欠如していることは、その有効性を評価し、設計決定を導く上で大きなリスクをもたらします。
ベンチマークはさらに複雑です。
i) 幅広いSIAタスクをカバーするLLM対応データセットの欠如
二 アナリスト責任の多様性を反映した新たな業務の継続的出現
三 評価に組み込まなければならない新LDMの迅速リリース
本稿では,セキュリティインシデント分析のためのエージェント評価フレームワークであるSIABENCHを導入することで,これらの課題に対処する。
まず、SIAタスクの2つの主要なカテゴリからなる第一種データセットを構築する。
(i)セキュリティインシデント(25シナリオ)の詳細な分析ワークフロー
(ii)アラートトリアージタスク(135シナリオ)。
第2に,SIAタスク(ネットワークとメモリの鑑定,バイナリ/コード/PDFフォーマット間のマルウェア解析,フィッシングメールとキット分析,ログ解析,偽アラート検出など)を自律的に実行可能なエージェントを実装した。
第3に、これらのタスクで11の主要なLCM(オープンおよびクローズドウェイトモデルの両方)をベンチマークします。
関連論文リスト
- CryptoBench: A Dynamic Benchmark for Expert-Level Evaluation of LLM Agents in Cryptocurrency [60.83660377169452]
本稿では,Large Language Model (LLM)エージェントの現実的能力を厳格に評価するために設計された,最初の専門家による動的ベンチマークであるCryptoBenchを紹介する。
検索と予測のための汎用エージェントベンチマークとは異なり、プロの暗号分析は特定の課題を提示する。
論文 参考訳(メタデータ) (2025-11-29T09:52:34Z) - Large Language Models for Security Operations Centers: A Comprehensive Survey [0.0]
大きな言語モデル(LLM)は、人間のようなテキストを理解して生成する強力なツールとして登場した。
この調査は、生成的AIとより具体的にはLSMのSOCワークフローへの統合を体系的に調査する。
論文 参考訳(メタデータ) (2025-09-13T15:27:50Z) - Unveiling Trust in Multimodal Large Language Models: Evaluation, Analysis, and Mitigation [51.19622266249408]
MultiTrust-XはMLLMの信頼性問題を評価、分析、緩和するためのベンチマークである。
分類に基づいて、MultiTrust-Xには32のタスクと28のキュレートデータセットが含まれている。
私たちの実験は、現在のモデルに重大な脆弱性を明らかにします。
論文 参考訳(メタデータ) (2025-08-21T09:00:01Z) - Comprehensive Vulnerability Analysis is Necessary for Trustworthy LLM-MAS [28.69485468744812]
大規模言語モデルに基づくマルチエージェントシステム (LLM-MAS) は、ハイテイクなアプリケーションにますます多くデプロイされている。
LLM-MASは、エージェント間通信、信頼関係、ツール統合を通じて、ユニークな攻撃面を導入している。
本稿では,多様な研究を統一するLSM-MASの脆弱性解析のための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2025-06-02T01:46:15Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - LLMs in Software Security: A Survey of Vulnerability Detection Techniques and Insights [12.424610893030353]
大規模言語モデル(LLM)は、ソフトウェア脆弱性検出のためのトランスフォーメーションツールとして登場している。
本稿では,脆弱性検出におけるLSMの詳細な調査を行う。
言語間の脆弱性検出、マルチモーダルデータ統合、リポジトリレベルの分析といった課題に対処する。
論文 参考訳(メタデータ) (2025-02-10T21:33:38Z) - Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。
LLMをベースとしたエージェントの6つの重要な特徴を概説する。
4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文 参考訳(メタデータ) (2024-11-14T15:40:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。