論文の概要: ExCyTIn-Bench: Evaluating LLM agents on Cyber Threat Investigation
- arxiv url: http://arxiv.org/abs/2507.14201v1
- Date: Mon, 14 Jul 2025 17:06:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.75982
- Title: ExCyTIn-Bench: Evaluating LLM agents on Cyber Threat Investigation
- Title(参考訳): ExCyTIn-Bench:サイバー脅威調査におけるLLMエージェントの評価
- Authors: Yiran Wu, Mauricio Velazco, Andrew Zhao, Manuel Raúl Meléndez Luján, Srisuma Movva, Yogesh K Roy, Quang Nguyen, Roberto Rodriguez, Qingyun Wu, Michael Albada, Julia Kiseleva, Anand Mudgerikar,
- Abstract要約: サイバー脅威調査におけるLCMエージェントxの評価を行う最初のベンチマークであるExCyTIn-Benchを提案する。
我々は、専門家が作成した検出ロジックで抽出したセキュリティログを活用して脅威調査グラフを構築する。
グラフ上のペアノードを用いてLLMを用いて質問を生成し、開始ノードを背景コンテキストとし、終了ノードを回答とする。
- 参考スコア(独自算出の注目度): 15.001420937472364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ExCyTIn-Bench, the first benchmark to Evaluate an LLM agent x on the task of Cyber Threat Investigation through security questions derived from investigation graphs. Real-world security analysts must sift through a large number of heterogeneous alert signals and security logs, follow multi-hop chains of evidence, and compile an incident report. With the developments of LLMs, building LLM-based agents for automatic thread investigation is a promising direction. To assist the development and evaluation of LLM agents, we construct a dataset from a controlled Azure tenant that covers 8 simulated real-world multi-step attacks, 57 log tables from Microsoft Sentinel and related services, and 589 automatically generated questions. We leverage security logs extracted with expert-crafted detection logic to build threat investigation graphs, and then generate questions with LLMs using paired nodes on the graph, taking the start node as background context and the end node as answer. Anchoring each question to these explicit nodes and edges not only provides automatic, explainable ground truth answers but also makes the pipeline reusable and readily extensible to new logs. This also enables the automatic generation of procedural tasks with verifiable rewards, which can be naturally extended to training agents via reinforcement learning. Our comprehensive experiments with different models confirm the difficulty of the task: with the base setting, the average reward across all evaluated models is 0.249, and the best achieved is 0.368, leaving substantial headroom for future research. Code and data are coming soon!
- Abstract(参考訳): 我々は,調査グラフから得られたセキュリティ質問を通じて,サイバー脅威調査のタスク上でLLMエージェントxを評価するための最初のベンチマークであるExCyTIn-Benchを紹介する。
現実のセキュリティアナリストは、多数の異質なアラート信号とセキュリティログを盗聴し、複数の証拠の連鎖に従い、インシデントレポートをコンパイルしなければならない。
LLMの開発により、自動スレッド調査のためのLCMベースのエージェントの構築が期待できる方向である。
LLMエージェントの開発と評価を支援するために、実世界の8つのシミュレーションされたマルチステップ攻撃、Microsoft Sentinelと関連する57のログテーブル、および589の質問をカバーしたコントロールされたAzureテナントからデータセットを構築する。
我々は、専門家が作成した検出ロジックで抽出したセキュリティログを利用して脅威調査グラフを構築し、グラフ上のペアノードを使用してLLMを用いて質問を生成し、開始ノードを背景コンテキストとし、終了ノードを回答とする。
これらの明示的なノードとエッジに各質問をアチョートすることは、自動的で説明可能な真実回答を提供するだけでなく、パイプラインを再利用し、新しいログに容易に拡張できるようにする。
これはまた、検証可能な報酬を伴う手続き的タスクの自動生成を可能にし、強化学習を通じて訓練エージェントに自然に拡張することができる。
基本設定では,全ての評価モデルの平均報酬は0.249であり,最高の成果は0.368であり,今後の研究に十分なヘッドルームを残している。
コードとデータがもうすぐやってくる!
関連論文リスト
- From Alerts to Intelligence: A Novel LLM-Aided Framework for Host-based Intrusion Detection [16.59938864299474]
大規模言語モデル(LLM)は、ホストベースの侵入検知システム(HIDS)の状態を前進させる大きな可能性を秘めている。
LLMは攻撃技術と、意味解析によって異常を検出する能力について幅広い知識を持っている。
本研究では,HIDSのためのLLMパイプライン構築の方向性について検討し,ShielDというシステムを開発した。
論文 参考訳(メタデータ) (2025-07-15T00:24:53Z) - LLM Embedding-based Attribution (LEA): Quantifying Source Contributions to Generative Model's Response for Vulnerability Analysis [1.8780665584728753]
大規模言語モデル(LLM)はサイバーセキュリティ脅威分析に広く採用されている。
Retrieval-Augmented Generation (RAG)パイプラインは、最新の信頼できるソースをモデルコンテキストに注入することで問題を緩和する。
本研究は, LLM Embedding-based Attribution (LEA) を提案する。これは, 学習済み知識と検索済みコンテンツが生成した各応答に対して持つ「影響の比率」を明確に表現するための, 斬新で説明可能な指標である。
論文 参考訳(メタデータ) (2025-06-12T21:20:10Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - CyberLLMInstruct: A New Dataset for Analysing Safety of Fine-Tuned LLMs Using Cyber Security Data [2.2530496464901106]
大規模言語モデルのサイバーセキュリティアプリケーションへの統合は、大きなチャンスをもたらす。
CyberLLMInstructは、サイバーセキュリティタスクにまたがる54,928の命令応答ペアのデータセットである。
微調整モデルは、CyberMetricベンチマークで最大92.50%の精度を達成することができる。
論文 参考訳(メタデータ) (2025-03-12T12:29:27Z) - AttackSeqBench: Benchmarking Large Language Models' Understanding of Sequential Patterns in Cyber Attacks [13.082370325093242]
我々は,サイバー脅威インテリジェンス(CTI)レポートにおいて,攻撃シーケンスの理解と推論を行うLarge Language Models(LLM)能力を評価するためのベンチマークであるAttackSeqBenchを紹介する。
本ベンチマークでは,3つの質問応答(QA)タスクを対象とし,各タスクは,相手行動の粒度の違いに焦点をあてる。
サイバー攻撃のシーケンシャルなパターンを分析する上での、その強みと限界を強調しながら、高速思考とスロー思考の両方で広範な実験と分析を行う。
論文 参考訳(メタデータ) (2025-03-05T04:25:21Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。
それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。
SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文 参考訳(メタデータ) (2025-02-10T21:28:15Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
不完全なドキュメンテーション、不正確なラベル、倫理的懸念、時代遅れの情報といったデータ品質問題は、広く使われているデータセットで共通している。
大きな言語モデル(LLM)の急増する能力により、LLMエージェントによる隠れデータセット問題の発見の合理化が約束されている。
本研究では,この課題に対処するLLMエージェントの能力を評価するためのベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks [84.7788065721689]
本稿では,データ解析タスクにおけるLSMに基づくエージェントの評価に特化して設計された最初のベンチマークであるInfiAgent-DABenchを紹介する。
このベンチマークには52のCSVファイルから得られた257のデータ分析質問からなるデータセットであるDAEvalが含まれている。
エージェントフレームワーク上に構築し,DABench 上で GPT-3.5 を3.9% 上回る特殊エージェント DAAgent を開発した。
論文 参考訳(メタデータ) (2024-01-10T19:04:00Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。