論文の概要: CyberSOCEval: Benchmarking LLMs Capabilities for Malware Analysis and Threat Intelligence Reasoning
- arxiv url: http://arxiv.org/abs/2509.20166v1
- Date: Wed, 24 Sep 2025 14:33:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.847698
- Title: CyberSOCEval: Benchmarking LLMs Capabilities for Malware Analysis and Threat Intelligence Reasoning
- Title(参考訳): CyberSOCEval: マルウェア分析と脅威インテリジェンス推論のためのLLMのベンチマーク機能
- Authors: Lauren Deason, Adam Bali, Ciprian Bejean, Diana Bolocan, James Crnkovich, Ioana Croitoru, Krishna Durai, Chase Midler, Calin Miron, David Molnar, Brad Moon, Bruno Ostarcevic, Alberto Peltea, Matt Rosenberg, Catalin Sandu, Arthur Saputkin, Sagar Shah, Daniel Stan, Ernest Szocs, Shengye Wan, Spencer Whitman, Sven Krasser, Joshua Saxe,
- Abstract要約: サイバーディフェンダーは、セキュリティ警告、脅威情報信号、ビジネスコンテキストの変化に圧倒されている。
既存の評価では、現実世界のディフェンダーに最も関係のあるシナリオを十分に評価していない。
我々はCyberSecEval 4.0のオープンソースベンチマークスイートであるCyberSOCEvalを紹介した。
- 参考スコア(独自算出の注目度): 1.3863707631653515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today's cyber defenders are overwhelmed by a deluge of security alerts, threat intelligence signals, and shifting business context, creating an urgent need for AI systems to enhance operational security work. While Large Language Models (LLMs) have the potential to automate and scale Security Operations Center (SOC) operations, existing evaluations do not fully assess the scenarios most relevant to real-world defenders. This lack of informed evaluation impacts both AI developers and those applying LLMs to SOC automation. Without clear insight into LLM performance in real-world security scenarios, developers lack a north star for development, and users cannot reliably select the most effective models. Meanwhile, malicious actors are using AI to scale cyber attacks, highlighting the need for open source benchmarks to drive adoption and community-driven improvement among defenders and model developers. To address this, we introduce CyberSOCEval, a new suite of open source benchmarks within CyberSecEval 4. CyberSOCEval includes benchmarks tailored to evaluate LLMs in two tasks: Malware Analysis and Threat Intelligence Reasoning--core defensive domains with inadequate coverage in current benchmarks. Our evaluations show that larger, more modern LLMs tend to perform better, confirming the training scaling laws paradigm. We also find that reasoning models leveraging test time scaling do not achieve the same boost as in coding and math, suggesting these models have not been trained to reason about cybersecurity analysis, and pointing to a key opportunity for improvement. Finally, current LLMs are far from saturating our evaluations, showing that CyberSOCEval presents a significant challenge for AI developers to improve cyber defense capabilities.
- Abstract(参考訳): 今日のサイバーディフェンダーは、セキュリティ警告の欠如、脅威情報信号、ビジネスコンテキストのシフトに圧倒され、運用セキュリティ作業を強化するためにAIシステムに緊急の必要性が生じる。
LLM(Large Language Models)はセキュリティオペレーションセンター(SOC)の運用を自動化する可能性があるが、既存の評価では現実のディフェンダーに最も関係のあるシナリオを十分に評価していない。
このインフォームドアセスメントの欠如は、AI開発者とLSMをSOC自動化に適用する人たちの両方に影響を及ぼす。
現実世界のセキュリティシナリオにおけるLLMのパフォーマンスに関する明確な洞察がないため、開発者は開発にノーザンスターを欠いているため、最も効果的なモデルを確実に選択することはできない。
一方、悪意のあるアクターはAIを使ってサイバー攻撃を拡大しており、ディフェンダーやモデル開発者の間で採用とコミュニティ主導の改善を促進するためのオープンソースのベンチマークの必要性を強調している。
これを解決するために、CyberSecEval 4.0で新しいオープンソースベンチマークスイートであるCyberSOCEvalを紹介します。
CyberSOCEvalには、LLMを2つのタスクで評価するためのベンチマークが含まれている。
我々の評価では、より大規模で近代的なLSMは、より優れた性能を示し、トレーニングスケーリング法則のパラダイムを確認している。
また、テスト時間のスケーリングを活用した推論モデルは、コーディングや数学と同様の強化を達成せず、これらのモデルがサイバーセキュリティ分析を推論する訓練を受けていないことを示唆し、改善の鍵となる機会を指し示している。
そして最後に、現在のLLMは、私たちの評価を飽和させるには程遠いもので、CyberSOCEvalは、AI開発者にとってサイバー防御能力を改善するための重要な課題であることを示している。
関連論文リスト
- A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - OCCULT: Evaluating Large Language Models for Offensive Cyber Operation Capabilities [0.0]
我々は、実世界の攻撃的サイバー操作の実現とスケーリングに向けたAIの進歩を評価するための新しいアプローチを実証する。
我々は、サイバーセキュリティの専門家が厳格かつ反復可能な測定に貢献できる軽量な運用評価フレームワークであるOCCULTについて詳述する。
私たちは、現実的なサイバー脅威をスケールするためにAIが使用されるリスクが、最近著しく進歩していることに気付きました。
論文 参考訳(メタデータ) (2025-02-18T19:33:14Z) - Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
大規模言語モデル(LLM)は、より有能で広く普及している。
テスト時間計算の標準化, 測定, スケーリングの最近の進歩は, ハードタスクにおける高い性能を達成するためにモデルを最適化するための新しい手法を提案する。
本稿では、これらの進歩をジェイルブレイクモデルに応用し、協調LDMから有害な応答を誘発する。
論文 参考訳(メタデータ) (2025-02-03T18:59:01Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - SECURE: Benchmarking Large Language Models for Cybersecurity [0.6741087029030101]
大規模言語モデル(LLM)はサイバーセキュリティの応用の可能性を示しているが、幻覚や真実性の欠如といった問題により信頼性が低下している。
本研究は、これらのタスクに関する7つの最先端モデルを評価し、サイバーセキュリティの文脈におけるその強みと弱点に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-05-30T19:35:06Z) - Generative AI in Cybersecurity: A Comprehensive Review of LLM Applications and Vulnerabilities [1.0974825157329373]
本稿では,ジェネレーティブAIとLarge Language Models(LLMs)によるサイバーセキュリティの将来を概観する。
ハードウェア設計のセキュリティ、侵入検知、ソフトウェアエンジニアリング、設計検証、サイバー脅威インテリジェンス、マルウェア検出、フィッシング検出など、さまざまな領域にわたるLCMアプリケーションを探索する。
GPT-4, GPT-3.5, Mixtral-8x7B, BERT, Falcon2, LLaMA などのモデルの発展に焦点を当て, LLM の進化とその現状について概説する。
論文 参考訳(メタデータ) (2024-05-21T13:02:27Z) - On the Vulnerability of LLM/VLM-Controlled Robotics [54.57914943017522]
大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合するロボットシステムの脆弱性を,入力モダリティの感度によって強調する。
LLM/VLM制御型2つのロボットシステムにおいて,単純な入力摂動がタスク実行の成功率を22.2%,14.6%減少させることを示す。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - Purple Llama CyberSecEval: A Secure Coding Benchmark for Language Models [41.068780235482514]
本稿では,Large Language Models (LLMs) のプログラミングアシスタントとしてのサイバーセキュリティを促進するために開発された,包括的なベンチマークであるCyberSecEvalを提案する。
CyberSecEvalは、2つの重要なセキュリティ領域におけるLSMの徹底的な評価を提供する。
論文 参考訳(メタデータ) (2023-12-07T22:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。