論文の概要: Benchmarking LLMs in an Embodied Environment for Blue Team Threat Hlunting
- arxiv url: http://arxiv.org/abs/2505.11901v1
- Date: Sat, 17 May 2025 08:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.927036
- Title: Benchmarking LLMs in an Embodied Environment for Blue Team Threat Hlunting
- Title(参考訳): Blue Team Threat Hluntingのための身体環境におけるLCMのベンチマーク
- Authors: Xiaoqun Liu, Feiyang Yu, Xi Li, Guanhua Yan, Ping Yang, Zhaohan Xi,
- Abstract要約: 大きな言語モデル(LLM)は、脅威分析を強化するための有望な機能を提供する。
実際のブルーチームの脅威追跡シナリオにおけるそれらの効果は、まだ十分に調査されていない。
青のチームリングでLLMをガイドするベンチマークであるCYBERTEAMを提示する。
- 参考スコア(独自算出の注目度): 14.810934670172479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As cyber threats continue to grow in scale and sophistication, blue team defenders increasingly require advanced tools to proactively detect and mitigate risks. Large Language Models (LLMs) offer promising capabilities for enhancing threat analysis. However, their effectiveness in real-world blue team threat-hunting scenarios remains insufficiently explored. In this paper, we present CYBERTEAM, a benchmark designed to guide LLMs in blue teaming practice. CYBERTEAM constructs an embodied environment in two stages. First, it models realistic threat-hunting workflows by capturing the dependencies among analytical tasks from threat attribution to incident response. Next, each task is addressed through a set of embodied functions tailored to its specific analytical requirements. This transforms the overall threat-hunting process into a structured sequence of function-driven operations, where each node represents a discrete function and edges define the execution order. Guided by this framework, LLMs are directed to perform threat-hunting tasks through modular steps. Overall, CYBERTEAM integrates 30 tasks and 9 embodied functions, guiding LLMs through pipelined threat analysis. We evaluate leading LLMs and state-of-the-art cybersecurity agents, comparing CYBERTEAM's embodied function-calling against fundamental elicitation strategies. Our results offer valuable insights into the current capabilities and limitations of LLMs in threat hunting, laying the foundation for the practical adoption in real-world cybersecurity applications.
- Abstract(参考訳): サイバー脅威の規模と高度化が続く中、ブルーチームディフェンダーはリスクを積極的に検出し軽減するために高度なツールを必要としている。
大きな言語モデル(LLM)は、脅威分析を強化するための有望な機能を提供する。
しかし、実際のブルーチームの脅威追跡シナリオにおけるそれらの効果は、まだ十分に調査されていない。
本稿では,ALMをブルーチームで指導するためのベンチマークであるCYBERTEAMを提案する。
CYBERTEAMは2段階の環境を構築する。
まず、脅威属性からインシデント応答までの分析タスク間の依存関係をキャプチャすることで、現実的な脅威追跡ワークフローをモデル化する。
次に、各タスクは、その特定の分析要求に合わせた一連の具体的関数によって対処される。
これにより、全体的な脅威追跡プロセスが、各ノードが個別の関数を表し、エッジが実行順序を定義する関数駆動操作の構造化シーケンスに変換される。
このフレームワークによってガイドされたLLMは、モジュラーステップを通じて脅威追跡タスクを実行するように意図されている。
全体として、CYBERTEAMは30のタスクと9の具体的機能を統合し、パイプライン化された脅威分析を通じてLLMを誘導する。
CYBERTEAMのインボディード機能コールと基本効用戦略を比較検討し,LLMと最先端のサイバーセキュリティエージェントの評価を行った。
我々の結果は、脅威狩りにおけるLLMの現在の能力と限界に関する貴重な洞察を与え、現実のサイバーセキュリティアプリケーションにおける実践的採用の基礎を築いた。
関連論文リスト
- AgentXploit: End-to-End Redteaming of Black-Box AI Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジィングフレームワークであるAgentXploitを提案する。
我々は、AgentXploitをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - AttackSeqBench: Benchmarking Large Language Models' Understanding of Sequential Patterns in Cyber Attacks [13.082370325093242]
我々は,サイバー脅威インテリジェンス(CTI)レポートにおいて,攻撃シーケンスの理解と推論を行うLarge Language Models(LLM)能力を評価するためのベンチマークであるAttackSeqBenchを紹介する。
本ベンチマークでは,3つの質問応答(QA)タスクを対象とし,各タスクは,相手行動の粒度の違いに焦点をあてる。
サイバー攻撃のシーケンシャルなパターンを分析する上での、その強みと限界を強調しながら、高速思考とスロー思考の両方で広範な実験と分析を行う。
論文 参考訳(メタデータ) (2025-03-05T04:25:21Z) - Construction and Evaluation of LLM-based agents for Semi-Autonomous penetration testing [0.0]
高性能大規模言語モデル (LLM) は様々な領域にまたがって進歩している。
サイバーセキュリティのような高度な専門分野において、完全な自律性は依然として課題である。
本稿では,複数のLLMモジュールを用いて,複雑なサイバーセキュリティを半自律的に実行するシステムを提案する。
論文 参考訳(メタデータ) (2025-02-21T15:02:39Z) - OCCULT: Evaluating Large Language Models for Offensive Cyber Operation Capabilities [0.0]
我々は、実世界の攻撃的サイバー操作の実現とスケーリングに向けたAIの進歩を評価するための新しいアプローチを実証する。
我々は、サイバーセキュリティの専門家が厳格かつ反復可能な測定に貢献できる軽量な運用評価フレームワークであるOCCULTについて詳述する。
私たちは、現実的なサイバー脅威をスケールするためにAIが使用されるリスクが、最近著しく進歩していることに気付きました。
論文 参考訳(メタデータ) (2025-02-18T19:33:14Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。
LLMをベースとしたエージェントの6つの重要な特徴を概説する。
4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文 参考訳(メタデータ) (2024-11-14T15:40:04Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Operationalizing a Threat Model for Red-Teaming Large Language Models (LLMs) [17.670925982912312]
Red-teamingは、大規模言語モデル(LLM)の脆弱性を特定するテクニックである。
本稿では,LLM に対するリピート攻撃に関する詳細な脅威モデルを提案し,知識の体系化(SoK)を提供する。
論文 参考訳(メタデータ) (2024-07-20T17:05:04Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Threat Modelling and Risk Analysis for Large Language Model (LLM)-Powered Applications [0.0]
大規模言語モデル(LLM)は、高度な自然言語処理機能を提供することによって、様々なアプリケーションに革命をもたらした。
本稿では,LSMを利用したアプリケーションに適した脅威モデリングとリスク分析について検討する。
論文 参考訳(メタデータ) (2024-06-16T16:43:58Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。