論文の概要: CTI-HAL: A Human-Annotated Dataset for Cyber Threat Intelligence Analysis
- arxiv url: http://arxiv.org/abs/2504.05866v1
- Date: Tue, 08 Apr 2025 09:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:28:01.002262
- Title: CTI-HAL: A Human-Annotated Dataset for Cyber Threat Intelligence Analysis
- Title(参考訳): CTI-HAL:サイバー脅威情報分析のための人間アノテーションデータセット
- Authors: Sofia Della Penna, Roberto Natella, Vittorio Orbinato, Lorenzo Parracino, Luciano Pianese,
- Abstract要約: サイバー脅威インテリジェンス(CTI)の情報源は、しばしば非構造化されており、自然言語で情報を自動的に抽出することは困難である。
近年,CTIデータからAIを自動抽出する方法が研究されている。
我々は,MITRE ATT&CKフレームワークに基づいて,CTIレポートを手作業で構築し,構造化した新しいデータセットを提案する。
- 参考スコア(独自算出の注目度): 2.7862108332002546
- License:
- Abstract: Organizations are increasingly targeted by Advanced Persistent Threats (APTs), which involve complex, multi-stage tactics and diverse techniques. Cyber Threat Intelligence (CTI) sources, such as incident reports and security blogs, provide valuable insights, but are often unstructured and in natural language, making it difficult to automatically extract information. Recent studies have explored the use of AI to perform automatic extraction from CTI data, leveraging existing CTI datasets for performance evaluation and fine-tuning. However, they present challenges and limitations that impact their effectiveness. To overcome these issues, we introduce a novel dataset manually constructed from CTI reports and structured according to the MITRE ATT&CK framework. To assess its quality, we conducted an inter-annotator agreement study using Krippendorff alpha, confirming its reliability. Furthermore, the dataset was used to evaluate a Large Language Model (LLM) in a real-world business context, showing promising generalizability.
- Abstract(参考訳): 組織は、複雑で多段階の戦術と多様な技術を含む高度な永続的脅威(APT)によってますます標的にされている。
インシデントレポートやセキュリティブログなどのサイバー脅威インテリジェンス(CTI)ソースは、貴重な洞察を提供するが、しばしば構造化されておらず、自然言語で情報を自動的に抽出することは困難である。
近年、AIを用いてCTIデータから自動抽出し、既存のCTIデータセットをパフォーマンス評価や微調整に活用する研究が進められている。
しかし、彼らはその効果に影響を及ぼす課題と限界を提示します。
これらの課題を克服するために、MITRE ATT&CKフレームワークに基づいて、CTIレポートから手動で構築された新しいデータセットを導入する。
その品質を評価するため,Krippendorff alphaを用いたアノテーション間合意研究を行い,信頼性を確認した。
さらに、このデータセットは、実世界のビジネスコンテキストにおけるLarge Language Model(LLM)の評価に使われ、有望な一般化性を示している。
関連論文リスト
- Towards a scalable AI-driven framework for data-independent Cyber Threat Intelligence Information Extraction [0.0]
本稿では、効率的なCTI情報抽出のために設計されたスケーラブルなAIベースのフレームワークである0-CTIを紹介する。
提案システムは、CTIレポートの完全なテキストシーケンスを処理し、名前付きエンティティとその関係のサイバーオントロジーを抽出する。
私たちの貢献は、教師付き学習とゼロショット学習の両方をサポートするCTI情報抽出のための最初のモジュラーフレームワークである0-CTIの開発です。
論文 参考訳(メタデータ) (2025-01-08T12:35:17Z) - CTINEXUS: Leveraging Optimized LLM In-Context Learning for Constructing Cybersecurity Knowledge Graphs Under Data Scarcity [49.657358248788945]
サイバー脅威インテリジェンス(CTI)レポートのテキスト記述は、サイバー脅威に関する豊富な知識源である。
現在のCTI抽出法は柔軟性と一般化性に欠けており、しばしば不正確で不完全な知識抽出をもたらす。
CTINexusは,大規模言語モデルのテキスト内学習(ICL)を最適化した新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-28T14:18:32Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Actionable Cyber Threat Intelligence using Knowledge Graphs and Large Language Models [0.8192907805418583]
Microsoft、Trend Micro、CrowdStrikeはCTI抽出を容易にするために生成AIを使用している。
本稿では,Large Language Models(LLMs)とKGs(KGs)の進歩を利用して,実行可能なCTIの抽出を自動化するという課題に対処する。
本手法は,情報抽出と構造化を最適化するために,プロンプトエンジニアリング,ガイダンスフレームワーク,微調整などの手法を評価する。
実験により,本手法が関連する情報抽出に有効であることを示すとともに,指導と微調整により,迅速な工学よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-30T13:02:03Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Time for aCTIon: Automated Analysis of Cyber Threat Intelligence in the
Wild [2.4669630540735215]
サイバー脅威インテリジェンス(CTI)は、リスクの評価と組織のセキュリティ向上に重要な役割を果たしている。
既存の構造化CTI抽出ツールには性能制限がある。
我々はこれらのギャップを埋め、新しい大きなオープンベンチマークデータセットと構造化されたCTI情報抽出ツールであるaCTIonを提供する。
論文 参考訳(メタデータ) (2023-07-14T13:43:16Z) - ThreatKG: An AI-Powered System for Automated Open-Source Cyber Threat Intelligence Gathering and Management [65.0114141380651]
ThreatKGはOSCTIの収集と管理のための自動化システムである。
複数のソースから多数のOSCTIレポートを効率的に収集する。
さまざまな脅威エンティティに関する高品質な知識を抽出するために、AIベースの専門技術を使用する。
論文 参考訳(メタデータ) (2022-12-20T16:13:59Z) - Automatic Mapping of Unstructured Cyber Threat Intelligence: An
Experimental Study [1.1470070927586016]
機械学習(ML)を用いた攻撃手法における非構造化サイバー脅威情報(CTI)の自動分類に関する実験的検討を行った。
CTI分析のための2つの新しいデータセットにコントリビュートし、従来の機械学習モデルとディープラーニングモデルの両方を含む、いくつかのMLモデルを評価した。
本稿では,このタスクにおいてMLがどのように機能するか,どの分類器が最善か,どの条件下か,その主な原因である分類誤り,CTI分析の課題について,いくつかの教訓を提示する。
論文 参考訳(メタデータ) (2022-08-25T15:01:42Z) - Towards Automated Classification of Attackers' TTPs by combining NLP
with ML Techniques [77.34726150561087]
我々は,NLP(Natural Language Processing)と,研究におけるセキュリティ情報抽出に使用される機械学習技術の評価と比較を行った。
本研究では,攻撃者の戦術や手法に従って非構造化テキストを自動的に分類するデータ処理パイプラインを提案する。
論文 参考訳(メタデータ) (2022-07-18T09:59:21Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。