論文の概要: AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence
- arxiv url: http://arxiv.org/abs/2511.01144v1
- Date: Mon, 03 Nov 2025 01:45:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.082005
- Title: AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence
- Title(参考訳): AthenaBench: サイバー脅威インテリジェンスにおけるLCMの評価のための動的ベンチマーク
- Authors: Md Tanvirul Alam, Dipkamal Bhusal, Salman Ahmad, Nidhi Rastogi, Peter Worth,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語推論において強力な能力を示しているが、サイバー脅威インテリジェンス(CTI)への応用は限定的である。
AthenaBenchは、改良されたデータセット生成パイプライン、重複除去、洗練された評価指標、リスク軽減戦略に焦点を当てた新しいタスクを含む、拡張されたベンチマークです。
我々は、GPT-5やGemini-2.5 Proといった最先端のプロプライエタリモデルを含む12のLLMと、LLaMAおよびQwenファミリーの7つのオープンソースモデルを評価した。
- 参考スコア(独自算出の注目度): 4.077787659104315
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated strong capabilities in natural language reasoning, yet their application to Cyber Threat Intelligence (CTI) remains limited. CTI analysis involves distilling large volumes of unstructured reports into actionable knowledge, a process where LLMs could substantially reduce analyst workload. CTIBench introduced a comprehensive benchmark for evaluating LLMs across multiple CTI tasks. In this work, we extend CTIBench by developing AthenaBench, an enhanced benchmark that includes an improved dataset creation pipeline, duplicate removal, refined evaluation metrics, and a new task focused on risk mitigation strategies. We evaluate twelve LLMs, including state-of-the-art proprietary models such as GPT-5 and Gemini-2.5 Pro, alongside seven open-source models from the LLaMA and Qwen families. While proprietary LLMs achieve stronger results overall, their performance remains subpar on reasoning-intensive tasks, such as threat actor attribution and risk mitigation, with open-source models trailing even further behind. These findings highlight fundamental limitations in the reasoning capabilities of current LLMs and underscore the need for models explicitly tailored to CTI workflows and automation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語推論において強力な能力を示しているが、サイバー脅威インテリジェンス(CTI)への応用は限定的である。
CTI分析では、大量の非構造化レポートを実用的な知識に蒸留する。
CTIBenchは、複数のCTIタスクにわたるLLMを評価するための包括的なベンチマークを導入した。
本研究では,データセット生成パイプラインの改善,重複除去,評価指標の洗練,リスク軽減戦略に重点を置いた新たなタスクを含む,改良されたベンチマークであるAthenaBenchの開発により,CTIBenchを拡張した。
我々は、GPT-5やGemini-2.5 Proといった最先端のプロプライエタリモデルを含む12のLLMと、LLaMAおよびQwenファミリーの7つのオープンソースモデルを評価した。
プロプライエタリなLSMは全体としてより強力な結果をもたらすが、そのパフォーマンスは、脅威アクターの帰属やリスク軽減といった推論集約的なタスクに及ばず、オープンソースモデルはさらに遅れを取っている。
これらの知見は、現在のLLMの推論能力の基本的な制限を強調し、CTIワークフローと自動化に明示的に適合したモデルの必要性を強調している。
関連論文リスト
- CTIArena: Benchmarking LLM Knowledge and Reasoning Across Heterogeneous Cyber Threat Intelligence [48.63397742510097]
サイバー脅威インテリジェンス(CTI)は現代のサイバーセキュリティの中心であり、進化する脅威を検出し緩和するための重要な洞察を提供する。
大規模言語モデル(LLM)の自然言語理解と推論能力により、CTIに適用することへの関心が高まっている。
異種マルチソースCTI上でLLM性能を評価するための最初のベンチマークであるCTIArenaを提案する。
論文 参考訳(メタデータ) (2025-10-13T22:10:17Z) - POLAR: Automating Cyber Threat Prioritization through LLM-Powered Assessment [13.18964488705143]
大規模言語モデル(LLM)は、サイバー脅威の迅速な搾取に対抗するセキュリティアナリストを支援するために、集中的に使用される。
本稿では,サイバー脅威インテリジェンス(CTI)におけるLCMの固有の脆弱性について検討する。
本稿では, 階層化, 自己回帰的洗練, ループ内人間監督を統合した新たな分類手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:49:20Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence [0.7499722271664147]
CTIBenchは、CTIアプリケーションにおける大規模言語モデルの性能を評価するために設計されたベンチマークである。
これらのタスクにおけるいくつかの最先端モデルの評価は、CTIコンテキストにおけるその強みと弱みに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-06-11T16:42:02Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。