論文の概要: AnnoCTR: A Dataset for Detecting and Linking Entities, Tactics, and Techniques in Cyber Threat Reports
- arxiv url: http://arxiv.org/abs/2404.07765v1
- Date: Thu, 11 Apr 2024 14:04:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 13:50:01.915385
- Title: AnnoCTR: A Dataset for Detecting and Linking Entities, Tactics, and Techniques in Cyber Threat Reports
- Title(参考訳): AnnoCTR:サイバー脅威レポートにおけるエンティティ、戦術、テクニックの検出とリンクのためのデータセット
- Authors: Lukas Lange, Marc Müller, Ghazaleh Haratinezhad Torbati, Dragan Milchevski, Patrick Grau, Subhash Pujari, Annemarie Friedrich,
- Abstract要約: 我々は、新しいCC-BY-SAライセンスのサイバー脅威レポートであるAnnoCTRを提示する。
レポートはドメインの専門家によって、名前付きエンティティ、時間表現、サイバーセキュリティ特有の概念によって注釈付けされている。
少数のシナリオでは、テキストで明示的にあるいは暗黙的に言及されるMITRE ATT&CKの概念を識別するために、MITRE ATT&CKの概念記述は、データ拡張のトレーニングに有効な情報源であることがわかった。
- 参考スコア(独自算出の注目度): 3.6785107661544805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monitoring the threat landscape to be aware of actual or potential attacks is of utmost importance to cybersecurity professionals. Information about cyber threats is typically distributed using natural language reports. Natural language processing can help with managing this large amount of unstructured information, yet to date, the topic has received little attention. With this paper, we present AnnoCTR, a new CC-BY-SA-licensed dataset of cyber threat reports. The reports have been annotated by a domain expert with named entities, temporal expressions, and cybersecurity-specific concepts including implicitly mentioned techniques and tactics. Entities and concepts are linked to Wikipedia and the MITRE ATT&CK knowledge base, the most widely-used taxonomy for classifying types of attacks. Prior datasets linking to MITRE ATT&CK either provide a single label per document or annotate sentences out-of-context; our dataset annotates entire documents in a much finer-grained way. In an experimental study, we model the annotations of our dataset using state-of-the-art neural models. In our few-shot scenario, we find that for identifying the MITRE ATT&CK concepts that are mentioned explicitly or implicitly in a text, concept descriptions from MITRE ATT&CK are an effective source for training data augmentation.
- Abstract(参考訳): 脅威の状況を監視して、実際のまたは潜在的な攻撃に気付くことは、サイバーセキュリティの専門家にとって最も重要である。
サイバー脅威に関する情報は一般的に自然言語で報告される。
自然言語処理は、この大量の構造化されていない情報を管理するのに役立つが、これまではほとんど注目されなかった。
本稿では,CC-BY-SAライセンスによるサイバー脅威レポートのデータセットであるAnnoCTRを紹介する。
報告書はドメインの専門家によって、名前付きエンティティ、時間表現、暗黙的に言及されたテクニックや戦術を含むサイバーセキュリティ固有の概念によって注釈付けされている。
エンティティと概念はウィキペディアとMITRE ATT&CK知識ベースに関連付けられており、攻撃の種類を分類するために最も広く使われている分類である。
MITRE ATT&CKにリンクする以前のデータセットは、ドキュメントごとに1つのラベルを提供するか、テキストの注釈付き文を提供する。
実験では、最先端のニューラルモデルを用いてデータセットのアノテーションをモデル化する。
少数のシナリオでは、テキストで明示的にあるいは暗黙的に言及されるMITRE ATT&CKの概念を識別するために、MITRE ATT&CKの概念記述は、データ拡張のトレーニングに有効な情報源であることがわかった。
関連論文リスト
- CTINEXUS: Leveraging Optimized LLM In-Context Learning for Constructing Cybersecurity Knowledge Graphs Under Data Scarcity [49.657358248788945]
サイバー脅威インテリジェンス(CTI)レポートのテキスト記述は、サイバー脅威に関する豊富な知識源である。
現在のCTI抽出法は柔軟性と一般化性に欠けており、しばしば不正確で不完全な知識抽出をもたらす。
CTINexusは,大規模言語モデルのテキスト内学習(ICL)を最適化した新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-28T14:18:32Z) - KGV: Integrating Large Language Models with Knowledge Graphs for Cyber Threat Intelligence Credibility Assessment [38.312774244521]
本稿では,CTI(Cyber Threat Intelligence)品質評価フレームワークの知識グラフに基づく検証手法を提案する。
提案手法では,検証対象のOSCTIキークレームを自動的に抽出するLarge Language Models (LLM)を導入している。
研究分野のギャップを埋めるために、異種情報源からの脅威情報評価のための最初のデータセットを作成し、公開しました。
論文 参考訳(メタデータ) (2024-08-15T11:32:46Z) - AttackER: Towards Enhancing Cyber-Attack Attribution with a Named Entity Recognition Dataset [1.9573380763700712]
サイバー攻撃の属性に関する最初のデータセットを提供する。
私たちのものは、句や文にまたがるいくつかのものを含む、コンテキストの詳細を持った豊富なアノテーションセットを提供します。
攻撃属性に対するデータセットの有効性を示すため,広範囲な実験を行い,NLP手法を適用した。
論文 参考訳(メタデータ) (2024-08-09T16:10:35Z) - AttacKG+:Boosting Attack Knowledge Graph Construction with Large Language Models [17.89951919370619]
大きな言語モデル(LLM)は幅広いタスクで大きな成功を収めています。
私たちのフレームワークは,リライト,識別子,要約という4つの連続的なモジュールで構成されています。
我々はサイバー攻撃を時間的に展開するイベントとして表現し、それぞれの時間的ステップは3つのレイヤの表現をカプセル化する。
論文 参考訳(メタデータ) (2024-05-08T01:41:25Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - ThreatKG: An AI-Powered System for Automated Open-Source Cyber Threat Intelligence Gathering and Management [65.0114141380651]
ThreatKGはOSCTIの収集と管理のための自動化システムである。
複数のソースから多数のOSCTIレポートを効率的に収集する。
さまざまな脅威エンティティに関する高品質な知識を抽出するために、AIベースの専門技術を使用する。
論文 参考訳(メタデータ) (2022-12-20T16:13:59Z) - EXTRACTOR: Extracting Attack Behavior from Threat Reports [6.471387545969443]
本稿では,ctiレポートから簡潔な攻撃行動を自動的に抽出するプロヴァンサと呼ばれる新しい手法とツールを提案する。
provenanceORはテキストに対して強い仮定をしておらず、非構造化テキストから攻撃行動をグラフとして抽出することができる。
この評価結果から,CTIレポートから簡潔なグラフを抽出し,サイバー分析ツールで脅威ハンティングに活用できることが示された。
論文 参考訳(メタデータ) (2021-04-17T18:51:00Z) - Predicting Themes within Complex Unstructured Texts: A Case Study on
Safeguarding Reports [66.39150945184683]
本稿では,教師付き分類手法を用いた保護レポートにおいて,主テーマの自動識別の問題に焦点をあてる。
この結果から,ラベル付きデータに制限のある複雑なタスクであっても,深層学習モデルが対象知識の振る舞いをシミュレートする可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T19:48:23Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。