論文の概要: Towards Effective Identification of Attack Techniques in Cyber Threat Intelligence Reports using Large Language Models
- arxiv url: http://arxiv.org/abs/2505.03147v1
- Date: Tue, 06 May 2025 03:43:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.189238
- Title: Towards Effective Identification of Attack Techniques in Cyber Threat Intelligence Reports using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたサイバー脅威情報レポートにおける攻撃手法の効果的な同定に向けて
- Authors: Hoang Cuong Nguyen, Shahroz Tariq, Mohan Baruwal Chhetri, Bao Quoc Vo,
- Abstract要約: 本研究は,Web上で利用可能な脅威レポートから攻撃手法を識別するためのサイバー脅威情報(CTI)抽出手法の性能を評価する。
我々は、Threat Report ATT&CK Mapper(TRAM)やLlama2のようなオープンソースのLarge Language Models(LLM)など、最先端ツールを利用する4つの構成を分析した。
以上の結果から, クラス不均衡, オーバーフィッティング, ドメイン固有の複雑性など, 正確なテクニック抽出を阻害する重要な課題が明らかとなった。
- 参考スコア(独自算出の注目度): 5.304267859042463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work evaluates the performance of Cyber Threat Intelligence (CTI) extraction methods in identifying attack techniques from threat reports available on the web using the MITRE ATT&CK framework. We analyse four configurations utilising state-of-the-art tools, including the Threat Report ATT&CK Mapper (TRAM) and open-source Large Language Models (LLMs) such as Llama2. Our findings reveal significant challenges, including class imbalance, overfitting, and domain-specific complexity, which impede accurate technique extraction. To mitigate these issues, we propose a novel two-step pipeline: first, an LLM summarises the reports, and second, a retrained SciBERT model processes a rebalanced dataset augmented with LLM-generated data. This approach achieves an improvement in F1-scores compared to baseline models, with several attack techniques surpassing an F1-score of 0.90. Our contributions enhance the efficiency of web-based CTI systems and support collaborative cybersecurity operations in an interconnected digital landscape, paving the way for future research on integrating human-AI collaboration platforms.
- Abstract(参考訳): 本研究は,MITRE ATT&CKフレームワークを用いて,Web上で利用可能な脅威レポートから攻撃手法を識別するためのサイバー脅威インテリジェンス(CTI)抽出手法の性能を評価する。
我々は、Threat Report ATT&CK Mapper(TRAM)やLlama2のようなオープンソースのLarge Language Models(LLM)など、最先端ツールを利用する4つの構成を分析した。
以上の結果から, クラス不均衡, オーバーフィッティング, ドメイン固有の複雑性など, 正確なテクニック抽出を阻害する重要な課題が明らかとなった。
これらの問題を緩和するために,まず LLM がレポートを要約し,次に再訓練された SciBERT モデルが LLM 生成データに付加された再バランスデータセットを処理する2段階のパイプラインを提案する。
このアプローチはベースラインモデルと比較してF1スコアの改善を実現しており、いくつかの攻撃技術はF1スコアの0.90を超えている。
我々の貢献は、ウェブベースのCTIシステムの効率を高め、相互接続されたデジタルランドスケープにおける協調サイバーセキュリティ操作をサポートし、人間とAIのコラボレーションプラットフォームの統合に関する今後の研究の道を開く。
関連論文リスト
- CTI-HAL: A Human-Annotated Dataset for Cyber Threat Intelligence Analysis [2.7862108332002546]
サイバー脅威インテリジェンス(CTI)の情報源は、しばしば非構造化されており、自然言語で情報を自動的に抽出することは困難である。
近年,CTIデータからAIを自動抽出する方法が研究されている。
我々は,MITRE ATT&CKフレームワークに基づいて,CTIレポートを手作業で構築し,構造化した新しいデータセットを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:47:15Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
2つの重要な特徴を持つ新しいRECデータセットを導入する。第一に、オブジェクトカテゴリ、属性、関係性に関する詳細な推論を必要とする、制御可能な難易度で設計されている。
第二に、微粒な編集によって生成された否定的なテキストと画像が組み込まれ、既存のターゲットを拒否するモデルの能力を明示的にテストする。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - Adversarial Training for Defense Against Label Poisoning Attacks [53.893792844055106]
ラベル中毒攻撃は機械学習モデルに重大なリスクをもたらす。
本稿では,これらの脅威に対処するために,サポートベクトルマシン(SVM)に基づく新たな対角的防御戦略を提案する。
提案手法は, 様々なモデルアーキテクチャに対応し, カーネルSVMを用いた予測勾配降下アルゴリズムを用いて, 対向学習を行う。
論文 参考訳(メタデータ) (2025-02-24T13:03:19Z) - Cyber-Attack Technique Classification Using Two-Stage Trained Large Language Models [5.713349305091325]
本稿では,サイバー脅威情報(CTI)レポートから自然言語文で記述された攻撃テクニックを識別する文分類システムを提案する。
低リソースのサイバー攻撃分類タスクの分類を改善するために,同一ラベルで補助データを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T21:09:02Z) - CTINexus: Automatic Cyber Threat Intelligence Knowledge Graph Construction Using Large Language Models [49.657358248788945]
サイバー脅威インテリジェンス(CTI)レポートのテキスト記述は、サイバー脅威に関する豊富な知識源である。
現在のCTI知識抽出法は柔軟性と一般化性に欠ける。
我々は,データ効率の高いCTI知識抽出と高品質サイバーセキュリティ知識グラフ(CSKG)構築のための新しいフレームワークであるCTINexusを提案する。
論文 参考訳(メタデータ) (2024-10-28T14:18:32Z) - Phishing Website Detection through Multi-Model Analysis of HTML Content [0.0]
本研究では,HTMLコンテンツに着目した高度な検出モデルを導入することにより,フィッシングのプレス問題に対処する。
提案手法は、構造化表データのための特殊多層パーセプトロン(MLP)モデルと、テキストの特徴を解析するための2つの事前学習自然言語処理(NLP)モデルを統合する。
2つのNLPと1つのモデルであるMultiText-LPの融合により、96.80 F1スコアと97.18精度スコアが得られた。
論文 参考訳(メタデータ) (2024-01-09T21:08:13Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。