論文の概要: CTIArena: Benchmarking LLM Knowledge and Reasoning Across Heterogeneous Cyber Threat Intelligence
- arxiv url: http://arxiv.org/abs/2510.11974v1
- Date: Mon, 13 Oct 2025 22:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.103758
- Title: CTIArena: Benchmarking LLM Knowledge and Reasoning Across Heterogeneous Cyber Threat Intelligence
- Title(参考訳): CTIArena: LLM知識のベンチマークと異種サイバー脅威情報全体の推論
- Authors: Yutong Cheng, Yang Liu, Changze Li, Dawn Song, Peng Gao,
- Abstract要約: サイバー脅威インテリジェンス(CTI)は現代のサイバーセキュリティの中心であり、進化する脅威を検出し緩和するための重要な洞察を提供する。
大規模言語モデル(LLM)の自然言語理解と推論能力により、CTIに適用することへの関心が高まっている。
異種マルチソースCTI上でLLM性能を評価するための最初のベンチマークであるCTIArenaを提案する。
- 参考スコア(独自算出の注目度): 48.63397742510097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cyber threat intelligence (CTI) is central to modern cybersecurity, providing critical insights for detecting and mitigating evolving threats. With the natural language understanding and reasoning capabilities of large language models (LLMs), there is increasing interest in applying them to CTI, which calls for benchmarks that can rigorously evaluate their performance. Several early efforts have studied LLMs on some CTI tasks but remain limited: (i) they adopt only closed-book settings, relying on parametric knowledge without leveraging CTI knowledge bases; (ii) they cover only a narrow set of tasks, lacking a systematic view of the CTI landscape; and (iii) they restrict evaluation to single-source analysis, unlike realistic scenarios that require reasoning across multiple sources. To fill these gaps, we present CTIArena, the first benchmark for evaluating LLM performance on heterogeneous, multi-source CTI under knowledge-augmented settings. CTIArena spans three categories, structured, unstructured, and hybrid, further divided into nine tasks that capture the breadth of CTI analysis in modern security operations. We evaluate ten widely used LLMs and find that most struggle in closed-book setups but show noticeable gains when augmented with security-specific knowledge through our designed retrieval-augmented techniques. These findings highlight the limitations of general-purpose LLMs and the need for domain-tailored techniques to fully unlock their potential for CTI.
- Abstract(参考訳): サイバー脅威インテリジェンス(CTI)は現代のサイバーセキュリティの中心であり、進化する脅威を検出し緩和するための重要な洞察を提供する。
大規模言語モデル(LLM)の自然言語理解と推論能力により、CTIに適用することへの関心が高まっている。
いくつかの初期の取り組みは、いくつかのCTIタスクでLLMを研究してきたが、制限は残されている。
(i)CTI知識ベースを活用せずにパラメトリック知識に頼って、クローズドブック設定のみを採用する。
(二)CTIのランドスケープの体系的な展望を欠いた狭いタスクのみをカバーし、
(3)複数のソースをまたいだ推論を必要とする現実的なシナリオとは異なり、単一のソース分析に限定する。
これらのギャップを埋めるために、CTIArenaは、知識を付加した環境下での不均一なマルチソースCTI上でのLCM性能を評価するための最初のベンチマークである。
CTIArenaは、構造化、非構造化、ハイブリッドの3つのカテゴリにまたがっており、現代のセキュリティ運用におけるCTI分析の幅を捉える9つのタスクに分けられている。
広く使われている10個のLCMを評価し、クローズドブックのセットアップに苦戦するが、我々の設計した検索強化技術により、セキュリティ固有の知識で強化された場合、顕著に向上することを示した。
これらの知見は、汎用LLMの限界と、CTIの可能性を完全に解き放つためのドメイン調整技術の必要性を浮き彫りにしている。
関連論文リスト
- POLAR: Automating Cyber Threat Prioritization through LLM-Powered Assessment [13.18964488705143]
大規模言語モデル(LLM)は、サイバー脅威の迅速な搾取に対抗するセキュリティアナリストを支援するために、集中的に使用される。
本稿では,サイバー脅威インテリジェンス(CTI)におけるLCMの固有の脆弱性について検討する。
本稿では, 階層化, 自己回帰的洗練, ループ内人間監督を統合した新たな分類手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:49:20Z) - Uncovering Vulnerabilities of LLM-Assisted Cyber Threat Intelligence [15.881854286231997]
大規模言語モデル(LLM)は、サイバー脅威の迅速な搾取に対抗するセキュリティアナリストを支援するために、集中的に使用される。
本稿では,サイバー脅威インテリジェンス(CTI)におけるLCMの固有の脆弱性について検討する。
本稿では, 階層化, 自己回帰的洗練, ループ内人間監督を統合した新たな分類手法を提案する。
論文 参考訳(メタデータ) (2025-09-28T02:08:27Z) - CTINexus: Automatic Cyber Threat Intelligence Knowledge Graph Construction Using Large Language Models [49.657358248788945]
サイバー脅威インテリジェンス(CTI)レポートのテキスト記述は、サイバー脅威に関する豊富な知識源である。
現在のCTI知識抽出法は柔軟性と一般化性に欠ける。
我々は,データ効率の高いCTI知識抽出と高品質サイバーセキュリティ知識グラフ(CSKG)構築のための新しいフレームワークであるCTINexusを提案する。
論文 参考訳(メタデータ) (2024-10-28T14:18:32Z) - CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence [0.7499722271664147]
CTIBenchは、CTIアプリケーションにおける大規模言語モデルの性能を評価するために設計されたベンチマークである。
これらのタスクにおけるいくつかの最先端モデルの評価は、CTIコンテキストにおけるその強みと弱みに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-06-11T16:42:02Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。