論文の概要: AnnoCTR: A Dataset for Detecting and Linking Entities, Tactics, and Techniques in Cyber Threat Reports
- arxiv url: http://arxiv.org/abs/2404.07765v1
- Date: Thu, 11 Apr 2024 14:04:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 13:50:01.915385
- Title: AnnoCTR: A Dataset for Detecting and Linking Entities, Tactics, and Techniques in Cyber Threat Reports
- Title(参考訳): AnnoCTR:サイバー脅威レポートにおけるエンティティ、戦術、テクニックの検出とリンクのためのデータセット
- Authors: Lukas Lange, Marc Müller, Ghazaleh Haratinezhad Torbati, Dragan Milchevski, Patrick Grau, Subhash Pujari, Annemarie Friedrich,
- Abstract要約: 我々は、新しいCC-BY-SAライセンスのサイバー脅威レポートであるAnnoCTRを提示する。
レポートはドメインの専門家によって、名前付きエンティティ、時間表現、サイバーセキュリティ特有の概念によって注釈付けされている。
少数のシナリオでは、テキストで明示的にあるいは暗黙的に言及されるMITRE ATT&CKの概念を識別するために、MITRE ATT&CKの概念記述は、データ拡張のトレーニングに有効な情報源であることがわかった。
- 参考スコア(独自算出の注目度): 3.6785107661544805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monitoring the threat landscape to be aware of actual or potential attacks is of utmost importance to cybersecurity professionals. Information about cyber threats is typically distributed using natural language reports. Natural language processing can help with managing this large amount of unstructured information, yet to date, the topic has received little attention. With this paper, we present AnnoCTR, a new CC-BY-SA-licensed dataset of cyber threat reports. The reports have been annotated by a domain expert with named entities, temporal expressions, and cybersecurity-specific concepts including implicitly mentioned techniques and tactics. Entities and concepts are linked to Wikipedia and the MITRE ATT&CK knowledge base, the most widely-used taxonomy for classifying types of attacks. Prior datasets linking to MITRE ATT&CK either provide a single label per document or annotate sentences out-of-context; our dataset annotates entire documents in a much finer-grained way. In an experimental study, we model the annotations of our dataset using state-of-the-art neural models. In our few-shot scenario, we find that for identifying the MITRE ATT&CK concepts that are mentioned explicitly or implicitly in a text, concept descriptions from MITRE ATT&CK are an effective source for training data augmentation.
- Abstract(参考訳): 脅威の状況を監視して、実際のまたは潜在的な攻撃に気付くことは、サイバーセキュリティの専門家にとって最も重要である。
サイバー脅威に関する情報は一般的に自然言語で報告される。
自然言語処理は、この大量の構造化されていない情報を管理するのに役立つが、これまではほとんど注目されなかった。
本稿では,CC-BY-SAライセンスによるサイバー脅威レポートのデータセットであるAnnoCTRを紹介する。
報告書はドメインの専門家によって、名前付きエンティティ、時間表現、暗黙的に言及されたテクニックや戦術を含むサイバーセキュリティ固有の概念によって注釈付けされている。
エンティティと概念はウィキペディアとMITRE ATT&CK知識ベースに関連付けられており、攻撃の種類を分類するために最も広く使われている分類である。
MITRE ATT&CKにリンクする以前のデータセットは、ドキュメントごとに1つのラベルを提供するか、テキストの注釈付き文を提供する。
実験では、最先端のニューラルモデルを用いてデータセットのアノテーションをモデル化する。
少数のシナリオでは、テキストで明示的にあるいは暗黙的に言及されるMITRE ATT&CKの概念を識別するために、MITRE ATT&CKの概念記述は、データ拡張のトレーニングに有効な情報源であることがわかった。
関連論文リスト
- AttacKG+:Boosting Attack Knowledge Graph Construction with Large Language Models [17.89951919370619]
大きな言語モデル(LLM)は幅広いタスクで大きな成功を収めています。
私たちのフレームワークは,リライト,識別子,要約という4つの連続的なモジュールで構成されています。
我々はサイバー攻撃を時間的に展開するイベントとして表現し、それぞれの時間的ステップは3つのレイヤの表現をカプセル化する。
論文 参考訳(メタデータ) (2024-05-08T01:41:25Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - Collective Obfuscation and Crowdsourcing [2.28438857884398]
レポートプラットフォームの普及には,ユニークなセキュリティとプライバシの影響が伴っていることを,私たちは示しています。
プラットフォームの正当性を阻害することを目的とした,協調的難読化戦略を同定する。
論文 参考訳(メタデータ) (2022-08-12T17:57:33Z) - The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。
本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-18T20:13:51Z) - Generating Cyber Threat Intelligence to Discover Potential Security
Threats Using Classification and Topic Modeling [6.0897744845912865]
サイバー脅威インテリジェンス(CTI)は、能動的かつ堅牢なメカニズムの1つとして表現されている。
我々のゴールは、異なる教師なしおよび教師なしの学習技術を用いて、ハッカーフォーラムから関連するCTIを特定し、探索することである。
論文 参考訳(メタデータ) (2021-08-16T02:30:29Z) - EXTRACTOR: Extracting Attack Behavior from Threat Reports [6.471387545969443]
本稿では,ctiレポートから簡潔な攻撃行動を自動的に抽出するプロヴァンサと呼ばれる新しい手法とツールを提案する。
provenanceORはテキストに対して強い仮定をしておらず、非構造化テキストから攻撃行動をグラフとして抽出することができる。
この評価結果から,CTIレポートから簡潔なグラフを抽出し,サイバー分析ツールで脅威ハンティングに活用できることが示された。
論文 参考訳(メタデータ) (2021-04-17T18:51:00Z) - Predicting Themes within Complex Unstructured Texts: A Case Study on
Safeguarding Reports [66.39150945184683]
本稿では,教師付き分類手法を用いた保護レポートにおいて,主テーマの自動識別の問題に焦点をあてる。
この結果から,ラベル付きデータに制限のある複雑なタスクであっても,深層学習モデルが対象知識の振る舞いをシミュレートする可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T19:48:23Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z) - ENT-DESC: Entity Description Generation by Exploring Knowledge Graph [53.03778194567752]
実際には、出力記述が最も重要な知識のみをカバーするため、入力知識は十分以上である可能性がある。
我々は、KG-to-textにおけるこのような実践的なシナリオの研究を容易にするために、大規模で挑戦的なデータセットを導入する。
本稿では,元のグラフ情報をより包括的に表現できるマルチグラフ構造を提案する。
論文 参考訳(メタデータ) (2020-04-30T14:16:19Z) - Automated Retrieval of ATT&CK Tactics and Techniques for Cyber Threat
Reports [5.789368942487406]
我々は,非構造化テキストから戦術,技法,手順を自動的に抽出するいくつかの分類手法を評価する。
我々は、私たちの発見に基づいて構築されたツールrcATTを紹介し、サイバー脅威レポートの自動分析をサポートするために、セキュリティコミュニティに自由に配布する。
論文 参考訳(メタデータ) (2020-04-29T16:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。