論文の概要: Benchmarking LLM-Assisted Blue Teaming via Standardized Threat Hunting
- arxiv url: http://arxiv.org/abs/2509.23571v2
- Date: Wed, 01 Oct 2025 16:01:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.804982
- Title: Benchmarking LLM-Assisted Blue Teaming via Standardized Threat Hunting
- Title(参考訳): 標準脅威ハンティングによるLDM支援ブルーチーム作成のベンチマーク
- Authors: Yuqiao Meng, Luoxi Tang, Feiyang Yu, Xi Li, Guanhua Yan, Ping Yang, Zhaohan Xi,
- Abstract要約: 本稿では,大規模言語モデルをブルーチームで指導するためのベンチマークであるCyberTeamを提案する。
まず、脅威属性からインシデント応答への分析タスク間の依存関係をキャプチャすることで、現実的な脅威追跡をモデル化する。
次に、各タスクは、その特定の分析要求に合わせて調整された一連の運用モジュールを通して対処される。
全体として、CyberTeamは30のタスクと9つの運用モジュールを統合し、標準化された脅威分析を通じてLLMをガイドする。
- 参考スコア(独自算出の注目度): 11.591424538749967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As cyber threats continue to grow in scale and sophistication, blue team defenders increasingly require advanced tools to proactively detect and mitigate risks. Large Language Models (LLMs) offer promising capabilities for enhancing threat analysis. However, their effectiveness in real-world blue team threat-hunting scenarios remains insufficiently explored. This paper presents CyberTeam, a benchmark designed to guide LLMs in blue teaming practice. CyberTeam constructs a standardized workflow in two stages. First, it models realistic threat-hunting workflows by capturing the dependencies among analytical tasks from threat attribution to incident response. Next, each task is addressed through a set of operational modules tailored to its specific analytical requirements. This transforms threat hunting into a structured sequence of reasoning steps, with each step grounded in a discrete operation and ordered according to task-specific dependencies. Guided by this framework, LLMs are directed to perform threat-hunting tasks through modularized steps. Overall, CyberTeam integrates 30 tasks and 9 operational modules to guide LLMs through standardized threat analysis. We evaluate both leading LLMs and state-of-the-art cybersecurity agents, comparing CyberTeam against open-ended reasoning strategies. Our results highlight the improvements enabled by standardized design, while also revealing the limitations of open-ended reasoning in real-world threat hunting.
- Abstract(参考訳): サイバー脅威の規模と高度化が続く中、ブルーチームディフェンダーはリスクを積極的に検出し軽減するために高度なツールを必要としている。
大きな言語モデル(LLM)は、脅威分析を強化するための有望な機能を提供する。
しかし、実際のブルーチームの脅威追跡シナリオにおけるそれらの効果は、まだ十分に調査されていない。
本稿では,ALMをブルーチームで指導するためのベンチマークであるCyberTeamについて述べる。
CyberTeamは標準化されたワークフローを2段階で構築する。
まず、脅威属性からインシデント応答までの分析タスク間の依存関係をキャプチャすることで、現実的な脅威追跡ワークフローをモデル化する。
次に、各タスクは、その特定の分析要求に合わせて調整された一連の運用モジュールを通して対処される。
これにより、脅威ハンティングは、各ステップが個別の操作に基礎を置いて、タスク固有の依存関係に従って順序付けられた、一連の推論ステップに変換される。
このフレームワークによってガイドされたLLMは、モジュール化されたステップを通じて脅威追跡タスクを実行する。
全体として、CyberTeamは30のタスクと9つの運用モジュールを統合し、標準化された脅威分析を通じてLLMをガイドする。
我々はLLMと最先端のサイバーセキュリティエージェントの両方を評価し、CyberTeamとオープンエンドの推論戦略を比較した。
本研究は, 現実の脅威狩りにおけるオープンエンド推論の限界を明らかにするとともに, 標準化設計によって実現された改善点を強調した。
関連論文リスト
- AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [76.74726258534142]
本稿では,有害な指示を受けるVLMエージェントの安全性を評価するための最初のベンチマークであるProgentSAFEを提案する。
AgentSAFEはシミュレーションサンドボックス内の現実的なエージェントと環境の相互作用をシミュレートする。
ベンチマークには、45の敵シナリオ、1,350の有害なタスク、8,100の有害な命令が含まれます。
論文 参考訳(メタデータ) (2025-06-17T16:37:35Z) - Benchmarking LLMs in an Embodied Environment for Blue Team Threat Hlunting [14.810934670172479]
大きな言語モデル(LLM)は、脅威分析を強化するための有望な機能を提供する。
実際のブルーチームの脅威追跡シナリオにおけるそれらの効果は、まだ十分に調査されていない。
青のチームリングでLLMをガイドするベンチマークであるCYBERTEAMを提示する。
論文 参考訳(メタデータ) (2025-05-17T08:33:50Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Operationalizing a Threat Model for Red-Teaming Large Language Models (LLMs) [17.670925982912312]
Red-teamingは、大規模言語モデル(LLM)の脆弱性を特定するテクニックである。
本稿では,LLM に対するリピート攻撃に関する詳細な脅威モデルを提案し,知識の体系化(SoK)を提供する。
論文 参考訳(メタデータ) (2024-07-20T17:05:04Z) - SEvenLLM: Benchmarking, Eliciting, and Enhancing Abilities of Large Language Models in Cyber Threat Intelligence [27.550484938124193]
本稿では,サイバーセキュリティのインシデント分析と応答能力をベンチマークし,評価し,改善するためのフレームワークを提案する。
サイバーセキュリティのWebサイトから、サイバーセキュリティの生テキストをクロールすることによって、高品質なバイリンガル命令コーパスを作成します。
命令データセットSEvenLLM-Instructは、マルチタスク学習目的のサイバーセキュリティLLMのトレーニングに使用される。
論文 参考訳(メタデータ) (2024-05-06T13:17:43Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。