論文の概要: Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps
- arxiv url: http://arxiv.org/abs/2604.19533v2
- Date: Wed, 22 Apr 2026 16:03:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.460627
- Title: Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps
- Title(参考訳): サイバーディフェンスベンチマーク:SecOpsにおけるLSMのエージェントによる脅威追跡評価
- Authors: Alankrit Chona, Igor Kozlov, Ambuj Kumar,
- Abstract要約: 我々は,大規模言語モデル(LLM)エージェントが脅威ハンティングのコアSOC分析タスクをどの程度うまく実行するかを評価するベンチマークであるCyber Defense Benchmarkを紹介する。
このベンチマークは、OTRF Security-Datasets Corpusから106の実際の攻撃手順をGymnasium強化学習環境にラップする。
各エピソードは、タイムシフトとエンティティが生記録を曖昧にする決定論的キャンペーンシミュレータによって生成される75,000〜135,000のログレコードのインメモリデータベースをエージェントに提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce the Cyber Defense Benchmark, a benchmark for measuring how well large language model (LLM) agents perform the core SOC analyst task of threat hunting: given a database of raw Windows event logs with no guided questions or hints, identify the exact timestamps of malicious events. The benchmark wraps 106 real attack procedures from the OTRF Security-Datasets corpus - spanning 86 MITRE ATT&CK sub-techniques across 12 tactics - into a Gymnasium reinforcement-learning environment. Each episode presents the agent with an in-memory SQLite database of 75,000-135,000 log records produced by a deterministic campaign simulator that time-shifts and entity-obfuscates the raw recordings. The agent must iteratively submit SQL queries to discover malicious event timestamps and explicitly flag them, scored CTF-style against Sigma-rule-derived ground truth. Evaluating five frontier models - Claude Opus 4.6, GPT-5, Gemini 3.1 Pro, Kimi K2.5, and Gemini 3 Flash - on 26 campaigns covering 105 of 106 procedures, we find that all models fail dramatically: the best model (Claude Opus 4.6) submits correct flags for only 3.8% of malicious events on average, and no run across any model ever finds all flags. We define a passing score as >= 50% recall on every ATT&CK tactic - the minimum bar for unsupervised SOC deployment. No model passes: the leader clears this bar on 5 of 13 tactics and the remaining four on zero. These results suggest that current LLMs are poorly suited for open-ended, evidence-driven threat hunting despite strong performance on curated Q&A security benchmarks.
- Abstract(参考訳): 我々は,大規模言語モデル(LLM)エージェントが脅威追跡のコアSOC分析タスクをどの程度うまく実行するかを測定するベンチマークであるCyber Defense Benchmarkを紹介した。
ベンチマークでは、OTRF Security-Datasets corpus(86 MITRE ATT&CKのサブテクニックを12の戦術でカバー)から106の本当の攻撃手順をGymnasium強化学習環境にラップしている。
各エピソードでは、エージェントに75,000~135,000のログレコードのインメモリSQLiteデータベースを提示する。
エージェントは、悪意のあるイベントタイムスタンプを発見し、それを明示的にフラグ付けするためにSQLクエリを反復的に送信し、Sigma-ruleから派生した基底真理に対してCTFスタイルをスコア付けする必要がある。
Claude Opus 4.6, GPT-5, Gemini 3.1 Pro, Kimi K2.5, Gemini 3 Flashの5つのフロンティアモデルを評価する – 106プロシージャのうち105つをカバーする26のキャンペーンでは、すべてのモデルが劇的に失敗していることがわかった。
パススコアは、教師なしのSOCデプロイメントの最小バーであるATT&CK戦術毎に >=50% リコールと定義します。
モデルが通らない: リーダーは13の戦術のうち5つをクリアし、残りの4つをゼロにする。
これらの結果から,現行のLLMはQ&Aセキュリティベンチマークの性能は高いものの,オープンエンドかつエビデンス駆動の脅威ハンティングには適していないことが示唆された。
関連論文リスト
- SkillSieve: A Hierarchical Triage Framework for Detecting Malicious AI Agent Skills [0.0]
SkillSieveは3層検出フレームワークで、必要に応じてより深く分析する。
400スキルのラベル付きベンチマークでは、SkillSieveは0.800 F1を達成し、ClawVetの0.421を上回った。
論文 参考訳(メタデータ) (2026-04-08T00:58:48Z) - OrgForge-IT: A Verifiable Synthetic Benchmark for LLM-Based Insider Threat Detection [0.0]
本稿では,決定論的シミュレーションエンジンが基底真理を維持し,言語モデルが表面の散文のみを生成する検証可能な合成ベンチマークを提案する。
コーパスは51日の模擬日、2,904回のテレメトリ記録を96.4%のノイズレートで記録し、単面と単日のトリアージ戦略を破るために設計された4つの検出シナリオをカバーしている。
論文 参考訳(メタデータ) (2026-03-23T19:03:53Z) - CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks [48.54598003197356]
Mambaのような状態空間モデル(SSM)はトランスフォーマーの効率的な代替品として大きな注目を集めている。
HiSPAsは、最近発見された脆弱性で、敵対する文字列を通じてSSMメモリを破損させる。
この脅威に対して防御するためのCLASPモデルを紹介します。
論文 参考訳(メタデータ) (2026-03-12T17:29:55Z) - Can Adversarial Code Comments Fool AI Security Reviewers -- Large-Scale Empirical Study of Comment-Based Attacks and Defenses Against LLM Code Analysis [0.0]
敵対的なコメントは、検出精度に小さな、統計的に重要でない効果をもたらす。
複雑な敵戦略は単純な操作的コメントに勝るものではない。
コメントストリッピングは、有用なコンテキストを削除することで、より弱いモデルの検出を減らす。
論文 参考訳(メタデータ) (2026-02-18T00:34:17Z) - OpenSec: Measuring Incident Response Agent Calibration Under Adversarial Evidence [0.0]
本稿では,防衛インシデント対応エージェントの評価を行う,二重制御強化学習環境であるOpenSecを紹介する。
静的な能力ベンチマークとは異なり、OpenSecは敵のエビデンスの下で世界状態を変える封じ込めアクションをスコアする。
GPT-5.2、Gemini 3、DeepSeekは100%のエピソードを90-97%の偽陽性率で封じ込めている。
論文 参考訳(メタデータ) (2026-01-28T22:12:54Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - AutoAdvExBench: Benchmarking autonomous exploitation of adversarial example defenses [66.87883360545361]
AutoAdvExBenchは、大規模言語モデル(LLM)が敵の例に対する防衛を自律的に活用できるかどうかを評価するためのベンチマークである。
我々は,CTF様(ホームワークエクササイズ)の75%を破壊できる強力なエージェントを設計する。
このエージェントは、我々のベンチマークの現実世界の防御の13%でしか成功できないことを示し、実際の"コードを攻撃することの難しさとCTFライクなコードとの間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2025-03-03T18:39:48Z) - CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。