論文の概要: SIR-Bench: Evaluating Investigation Depth in Security Incident Response Agents
- arxiv url: http://arxiv.org/abs/2604.12040v1
- Date: Mon, 13 Apr 2026 20:32:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.113737
- Title: SIR-Bench: Evaluating Investigation Depth in Security Incident Response Agents
- Title(参考訳): SIR-Bench:セキュリティインシデント対応エージェントにおける調査深さの評価
- Authors: Daniel Begimher, Cristian Leo, Jack Huang, Pat Gaw, Bonan Zheng,
- Abstract要約: SIR-Benchは,自律型セキュリティインシデント対応エージェントの評価のための794のテストケースのベンチマークである。
SIR-Benchは、エージェントが正しいトリアージ決定に達するかどうかだけでなく、活発な調査を通じて新たな証拠を発見するかどうかを測定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SIR-Bench, a benchmark of 794 test cases for evaluating autonomous security incident response agents that distinguishes genuine forensic investigation from alert parroting. Derived from 129 anonymized incident patterns with expert-validated ground truth, SIR-Bench measures not only whether agents reach correct triage decisions, but whether they discover novel evidence through active investigation. To construct SIR-Bench, we develop Once Upon A Threat (OUAT), a framework that replays real incident patterns in controlled cloud environments, producing authentic telemetry with measurable investigation outcomes. Our evaluation methodology introduces three complementary metrics: triage accuracy (M1), novel finding discovery (M2), and tool usage appropriateness (M3), assessed through an adversarial LLM-as-Judge that inverts the burden of proof -- requiring concrete forensic evidence to credit investigations. Evaluating our SIR agent on the benchmark demonstrates 97.1% true positive (TP) detection, 73.4% false positive (FP) rejection, and 5.67 novel key findings per case, establishing a baseline against which future investigation agents can be measured.
- Abstract(参考訳): SIR-Benchは自律型セキュリティインシデント対応エージェントの評価のための794の試験ケースのベンチマークであり、真に法医学的な調査と警告パロットを区別する。
SIR-Benchは、129の匿名化されたインシデントパターンと専門家公認の真実から派生したもので、エージェントが正しいトリアージ決定を下すかどうかだけでなく、アクティブな調査を通じて新たな証拠を発見するかどうかを測定する。
SIR-Benchを構築するために、制御されたクラウド環境における実際のインシデントパターンをリプレイし、測定可能な調査結果を備えた認証テレメトリを生成するフレームワークであるEven Upon A Threat (OUAT)を開発した。
評価手法は3つの相補的指標(トリアージ精度(M1), 新規発見発見(M2), ツール使用適性(M3))を紹介した。
ベンチマークでSIRエージェントを評価すると、97.1%の真正(TP)検出、73.4%の偽正(FP)拒絶、5.67の新規なキー発見が示され、将来の調査エージェントを測定するための基準が確立される。
関連論文リスト
- Auditable Agents [10.007755929469814]
LLMエージェントはツールを呼び、データベースをクエリし、タスクをデリゲートし、外部の副作用を引き起こす。
エージェントシステムが世界で活動できるようになると、もはや有害なアクションが防げるかどうかという問題ではない。
我々は、説明責任(コンプライアンスを判断し、責任を割り当てる能力)、監査可能性(説明責任を可能にするシステム特性)、監査(信頼できる証拠から振る舞いを再構築するプロセス)を区別する。
論文 参考訳(メタデータ) (2026-04-07T06:25:49Z) - Can LLM Agents Generate Real-World Evidence? Evaluating Observational Studies in Medical Databases [17.35673829214932]
我々は、MIMIC-IVをベースとしたRWE-benchについて、ピアレビューによる観察研究から紹介する。
各タスクは対応する研究プロトコルを基準として提供し、エージェントは実際のデータベースで実験を行う必要がある。
162タスク全体では、タスク成功率は低く、最高のエージェントが39.9%、最高のオープンソースモデルが30.4%に達する。
論文 参考訳(メタデータ) (2026-03-24T03:50:34Z) - DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality [49.62610727661819]
既存のファクトチェッカーは主に汎用ドメイン、ファクトイドスタイルの原子クレーム用に設計されている。
本稿では,ベンチマークラベルと有理値が明示的に変更可能なAudit-then-Score (AtS)を提案する。
我々は、AtSを、監査可能な有理量を持つDRR事実性ベンチマークであるDeepFact-Benchとしてインスタンス化する。
論文 参考訳(メタデータ) (2026-03-06T05:05:57Z) - FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights [63.32178443510396]
FIRE-Bench (Full-cycle Insight Rediscovery Evaluation) は、確立された発見の再検討を通じてエージェントを評価するベンチマークである。
最強のエージェントでさえ、限られた再発見成功(50 F1)を達成し、実行中に高いばらつきを示し、実験的な設計、実行、エビデンスに基づく推論において繰り返し失敗モードを表示する。
論文 参考訳(メタデータ) (2026-02-02T23:21:13Z) - Verifiability-First Agents: Provable Observability and Lightweight Audit Agents for Controlling Autonomous LLM Systems [0.0]
本稿では,暗号およびシンボリック手法を用いてエージェントアクションの実行時の検証を統合する,検証可能性第一アーキテクチャを提案する。
また、制約付き推論を用いて意図と行動の連続的な検証を行う監査エージェントを組み込む。
当社のアプローチでは,評価の焦点を,誤適応の可能性から,誤適応の迅速かつ確実な検出と再伝達にシフトしています。
論文 参考訳(メタデータ) (2025-12-19T06:12:43Z) - SafeSearch: Automated Red-Teaming for the Safety of LLM-Based Search Agents [63.70653857721785]
我々は、低品質な検索結果の出現率と、エージェントの動作を誤る可能性を実証する2つの実験を行った。
この脅威に対処するため、私たちは、体系的、スケーラブルで、コスト効率のよい自動化されたレッドチームフレームワークを導入しました。
論文 参考訳(メタデータ) (2025-09-28T07:05:17Z) - Do LLM Agents Know How to Ground, Recover, and Assess? A Benchmark for Epistemic Competence in Information-Seeking Agents [7.874934781458826]
本稿では,Large Language Model (LLM) 検索エージェントの能力を評価する最初のベンチマークであるSeekBenchを紹介する。
SeekBenchは、190のエキスパートアノテーション付きトレースで構成され、1,800以上のレスポンスステップがLLM検索エージェントによって生成される。
論文 参考訳(メタデータ) (2025-09-26T14:18:50Z) - ORFuzz: Fuzzing the "Other Side" of LLM Safety -- Testing Over-Refusal [27.26251627767238]
大規模言語モデル(LLM)は、過度に保守的な安全対策のため、誤って良心的なクエリーを拒否する過度な拒絶を示す。
本稿では,LLMオーバーリフレクションの系統的検出と解析を行うための,最初の進化的テストフレームワークORFuzzを紹介する。
論文 参考訳(メタデータ) (2025-08-15T05:03:26Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。