論文の概要: CTI-REALM: Benchmark to Evaluate Agent Performance on Security Detection Rule Generation Capabilities
- arxiv url: http://arxiv.org/abs/2603.13517v2
- Date: Tue, 17 Mar 2026 15:49:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.840832
- Title: CTI-REALM: Benchmark to Evaluate Agent Performance on Security Detection Rule Generation Capabilities
- Title(参考訳): CTI-REALM:セキュリティ検出ルール生成能力のエージェント性能評価ベンチマーク
- Authors: Arjun Chakraborty, Sandra Ho, Adam Cook, Manuel Meléndez,
- Abstract要約: CTI-REALMは、AIエージェントがサイバー脅威インテリジェンス(CTI)を解釈し、検出ルールを開発する能力を評価するために設計されたベンチマークである。
この研究は、AIエージェントが検出エンジニアリングの労働集約的な側面をサポートする可能性を実証している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CTI-REALM (Cyber Threat Real World Evaluation and LLM Benchmarking) is a benchmark designed to evaluate AI agents' ability to interpret cyber threat intelligence (CTI) and develop detection rules. The benchmark provides a realistic environment that replicates the security analyst workflow. This enables agents to examine CTI reports, execute queries, understand schema structures, and construct detection rules. Evaluation involves emulated attacks of varying complexity across Linux systems, cloud platforms, and Azure Kubernetes Service (AKS), with ground truth data for accurate assessment. Agent performance is measured through both final detection results and trajectory-based rewards that capture decision-making effectiveness. This work demonstrates the potential of AI agents to support labor-intensive aspects of detection engineering. Our comprehensive evaluation of 16 frontier models shows that Claude Opus 4.6 (High) achieves the highest overall reward (0.637), followed by Claude Opus 4.5 (0.624) and the GPT-5 family. An ablation study confirms that CTI-specific tools significantly improve agent performance, a variance analysis across repeated runs demonstrates result stability. Finally, a memory augmentation study shows that seeded context can close 33\% of the performance gap between smaller and larger models.
- Abstract(参考訳): CTI-REALM(Cyber Threat Real World Evaluation and LLM Benchmarking)は、AIエージェントがサイバー脅威インテリジェンス(CTI)を解釈し、検出ルールを開発する能力を評価するために設計されたベンチマークである。
ベンチマークは、セキュリティアナリストワークフローを再現する現実的な環境を提供する。
これにより、エージェントはCTIレポートを調べ、クエリを実行し、スキーマ構造を理解し、検出ルールを構築することができる。
評価には、Linuxシステム、クラウドプラットフォーム、Azure Kubernetes Service(AKS)にまたがるさまざまな複雑さの攻撃をエミュレートする。
エージェント性能は、最終的な検出結果と、意思決定の有効性を捉える軌跡に基づく報奨によって測定される。
この研究は、AIエージェントが検出エンジニアリングの労働集約的な側面をサポートする可能性を実証している。
16のフロンティアモデルに対する包括的評価は、Claude Opus 4.6 (High) が最高報酬 (0.637) を達成し、Claude Opus 4.5 (0.624) と GPT-5 ファミリーが続くことを示している。
アブレーション研究では、CTI固有のツールがエージェント性能を著しく向上することを確認した。
最後に、メモリ拡張研究により、シードコンテキストは、小規模モデルと大規模モデルのパフォーマンスギャップの33倍を閉じることができることが示された。
関連論文リスト
- FP-Predictor - False Positive Prediction for Static Analysis Reports [5.4164223824711755]
この研究は、静的アプリケーションセキュリティテスト(SAST)レポートを真で偽陽性と予測するために設計されたグラフ畳み込みネットワーク(GCN)モデルを示す。
このモデルは静的解析結果から構築されたコードプロパティグラフ(CPG)を利用して、コード内の構造的および意味的な関係をキャプチャする。
CryptoAPI-Benchベンチマークの評価では、このモデルの実用性を示し、全体の精度は96.6%に達した。
論文 参考訳(メタデータ) (2026-03-11T09:05:39Z) - Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification [71.98473277917962]
近年のDeep Research Agents (DRA) の進歩は、自動知識発見と問題解決に変化をもたらしている。
本稿では,政策モデルのアウトプットを反復的に検証することで,エージェントの能力を自己進化させる手法を提案する。
検証の非対称性を生かしたルーブリックスに基づく結果報酬検証器であるDeepVerifierを提案する。
論文 参考訳(メタデータ) (2026-01-22T09:47:31Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Behavioral Analytics for Continuous Insider Threat Detection in Zero-Trust Architectures [0.0]
このフレームワークでは、CERT Insider Threatデータセットをデータクリーニング、正規化、クラスバランスに使用しています。
また、次元減少のために主成分分析(PCA)も採用している。
SVM(90.1%)、ANN(94.7%)、ベイズネット(94.9)と比較して、AdaBoostは98.0%のACC、98.3%のPre、98.0%のREC、F1スコア(F1)で高いパフォーマンスを達成した。
論文 参考訳(メタデータ) (2026-01-10T22:30:19Z) - Automated Post-Incident Policy Gap Analysis via Threat-Informed Evidence Mapping using Large Language Models [0.0]
本稿では,Large Language Models (LLMs) が,システム証拠を自律的に分析し,セキュリティポリシーのギャップを識別することによって,事故後のレビューを強化することができるかどうかを検討する。
我々は、ログデータを取り込み、観察された振る舞いをMITRE ATT&CKフレームワークにマップし、妥当性とコンプライアンスに関する組織的セキュリティポリシーを評価する脅威に富んだエージェント型フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-04T01:39:20Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Evaluating Ensemble and Deep Learning Models for Static Malware Detection with Dimensionality Reduction Using the EMBER Dataset [0.0]
本研究では,EMBERデータセットを用いた静的マルウェア検出における機械学習アルゴリズムの有効性について検討した。
LightGBM, XGBoost, CatBoost, Random Forest, Extra Trees, HistGradientBoosting, k-Nearest Neighbors (KNN), TabNetの8つの分類モデルを評価した。
モデルは精度、精度、リコール、F1スコア、AUCに基づいて評価され、予測性能とロバスト性の両方を調べる。
論文 参考訳(メタデータ) (2025-07-22T18:45:10Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8087612190556891]
VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。
各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。
ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。
我々の結果は現在の状態を示している。
論文 参考訳(メタデータ) (2025-05-26T01:20:44Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。