論文の概要: CTISum: A New Benchmark Dataset For Cyber Threat Intelligence Summarization
- arxiv url: http://arxiv.org/abs/2408.06576v2
- Date: Mon, 30 Jun 2025 02:56:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.36503
- Title: CTISum: A New Benchmark Dataset For Cyber Threat Intelligence Summarization
- Title(参考訳): CTISum:サイバー脅威情報要約のためのベンチマークデータセット
- Authors: Wei Peng, Junmei Ding, Wei Wang, Lei Cui, Wei Cai, Zhiyu Hao, Xiaochun Yun,
- Abstract要約: サイバー脅威インテリジェンス(CTI)の要約は、Webインテリジェンスデータから簡潔で正確なハイライトを生成する。
CTI要約タスク用に設計された新しいベンチマークデータセットであるCTISumを紹介する。
また、リスク評価、セキュリティギャップの特定、脆弱性の発見などを目的とした、攻撃プロセスの要約という、新たなきめ細かいサブタスクも提案する。
- 参考スコア(独自算出の注目度): 14.287652216484863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cyber Threat Intelligence (CTI) summarization involves generating concise and accurate highlights from web intelligence data, which is critical for providing decision-makers with actionable insights to swiftly detect and respond to cyber threats in the cybersecurity domain. Despite that, the development of efficient techniques for summarizing CTI reports, comprising facts, analytical insights, attack processes, and more, has been hindered by the lack of suitable datasets. To address this gap, we introduce CTISum, a new benchmark dataset designed for the CTI summarization task. Recognizing the significance of understanding attack processes, we also propose a novel fine-grained subtask: attack process summarization, which aims to help defenders assess risks, identify security gaps, and uncover vulnerabilities. Specifically, a multi-stage annotation pipeline is designed to collect and annotate CTI data from diverse web sources, alongside a comprehensive benchmarking of CTISum using both extractive, abstractive and LLMs-based summarization methods. Experimental results reveal that current state-of-the-art models face significant challenges when applied to CTISum, highlighting that automatic summarization of CTI reports remains an open research problem. The code and example dataset can be made publicly available at https://github.com/pengwei-iie/CTISum.
- Abstract(参考訳): サイバー脅威インテリジェンス(CTI)の要約には、Webインテリジェンスデータから簡潔で正確なハイライトを生成することが含まれる。
それにもかかわらず、事実、分析的洞察、攻撃プロセスなどを含むCTIレポートを要約する効率的な手法の開発は、適切なデータセットの欠如によって妨げられている。
このギャップに対処するために,CTI要約タスク用に設計された新しいベンチマークデータセットであるCTISumを導入する。
また,攻撃プロセスを理解することの重要性を認識し,攻撃プロセスの要約という新たなサブタスクを提案する。
具体的には、多段階のアノテーションパイプラインを用いて、多種多様なWebソースからCTIデータを収集、注釈付けし、抽出、抽象およびLLMに基づく要約手法を用いてCTISumの総合的なベンチマークを行う。
実験結果から,CTISumに適用した場合,現在の最先端モデルでは重要な課題に直面しており,CTIレポートの自動要約は依然としてオープンな研究課題であることが明らかとなった。
コードとサンプルデータセットはhttps://github.com/pengwei-iie/CTISum.comで公開されている。
関連論文リスト
- CTI-HAL: A Human-Annotated Dataset for Cyber Threat Intelligence Analysis [2.7862108332002546]
サイバー脅威インテリジェンス(CTI)の情報源は、しばしば非構造化されており、自然言語で情報を自動的に抽出することは困難である。
近年,CTIデータからAIを自動抽出する方法が研究されている。
我々は,MITRE ATT&CKフレームワークに基づいて,CTIレポートを手作業で構築し,構造化した新しいデータセットを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:47:15Z) - AttackSeqBench: Benchmarking Large Language Models' Understanding of Sequential Patterns in Cyber Attacks [13.082370325093242]
我々は,サイバー脅威インテリジェンス(CTI)レポートにおいて,攻撃シーケンスの理解と推論を行うLarge Language Models(LLM)能力を評価するためのベンチマークであるAttackSeqBenchを紹介する。
本ベンチマークでは,3つの質問応答(QA)タスクを対象とし,各タスクは,相手行動の粒度の違いに焦点をあてる。
サイバー攻撃のシーケンシャルなパターンを分析する上での、その強みと限界を強調しながら、高速思考とスロー思考の両方で広範な実験と分析を行う。
論文 参考訳(メタデータ) (2025-03-05T04:25:21Z) - SUMI-IFL: An Information-Theoretic Framework for Image Forgery Localization with Sufficiency and Minimality Constraints [66.85363924364628]
イメージフォージェリーローカライゼーション (IFL) は, 改ざん画像誤用を防止し, 社会安全を守るための重要な技術である。
本稿では,情報理論IFL フレームワーク SUMI-IFL について紹介する。
論文 参考訳(メタデータ) (2024-12-13T09:08:02Z) - CTINEXUS: Leveraging Optimized LLM In-Context Learning for Constructing Cybersecurity Knowledge Graphs Under Data Scarcity [49.657358248788945]
サイバー脅威インテリジェンス(CTI)レポートのテキスト記述は、サイバー脅威に関する豊富な知識源である。
現在のCTI抽出法は柔軟性と一般化性に欠けており、しばしば不正確で不完全な知識抽出をもたらす。
CTINexusは,大規模言語モデルのテキスト内学習(ICL)を最適化した新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-28T14:18:32Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Actionable Cyber Threat Intelligence using Knowledge Graphs and Large Language Models [0.8192907805418583]
Microsoft、Trend Micro、CrowdStrikeはCTI抽出を容易にするために生成AIを使用している。
本稿では,Large Language Models(LLMs)とKGs(KGs)の進歩を利用して,実行可能なCTIの抽出を自動化するという課題に対処する。
本手法は,情報抽出と構造化を最適化するために,プロンプトエンジニアリング,ガイダンスフレームワーク,微調整などの手法を評価する。
実験により,本手法が関連する情報抽出に有効であることを示すとともに,指導と微調整により,迅速な工学よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-30T13:02:03Z) - TSTEM: A Cognitive Platform for Collecting Cyber Threat Intelligence in the Wild [0.06597195879147556]
オープンソースからサイバー脅威情報(CTI)を抽出することは、急速に拡大する防衛戦略である。
従来の研究では、抽出プロセスの個々のコンポーネントの改善に焦点が当てられていた。
コミュニティには、ストリーミングCTIデータパイプラインを野放しに展開するオープンソースプラットフォームがない。
論文 参考訳(メタデータ) (2024-02-15T14:29:21Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - NLP-Based Techniques for Cyber Threat Intelligence [13.958337678497163]
脅威知能の文脈で適用されたNLP技術の概要について概説する。
デジタル資産を保護するための主要なツールとして、CTIの基本的定義と原則を説明することから始まる。
その後、WebソースからのCTIデータクローリングのためのNLPベースのテクニック、CTIデータ分析、サイバーセキュリティデータからの関係抽出、CTIの共有とコラボレーション、CTIのセキュリティ脅威の徹底的な調査を行う。
論文 参考訳(メタデータ) (2023-11-15T09:23:33Z) - ThreatKG: An AI-Powered System for Automated Open-Source Cyber Threat Intelligence Gathering and Management [65.0114141380651]
ThreatKGはOSCTIの収集と管理のための自動化システムである。
複数のソースから多数のOSCTIレポートを効率的に収集する。
さまざまな脅威エンティティに関する高品質な知識を抽出するために、AIベースの専門技術を使用する。
論文 参考訳(メタデータ) (2022-12-20T16:13:59Z) - Automatic Mapping of Unstructured Cyber Threat Intelligence: An
Experimental Study [1.1470070927586016]
機械学習(ML)を用いた攻撃手法における非構造化サイバー脅威情報(CTI)の自動分類に関する実験的検討を行った。
CTI分析のための2つの新しいデータセットにコントリビュートし、従来の機械学習モデルとディープラーニングモデルの両方を含む、いくつかのMLモデルを評価した。
本稿では,このタスクにおいてMLがどのように機能するか,どの分類器が最善か,どの条件下か,その主な原因である分類誤り,CTI分析の課題について,いくつかの教訓を提示する。
論文 参考訳(メタデータ) (2022-08-25T15:01:42Z) - Towards Automated Classification of Attackers' TTPs by combining NLP
with ML Techniques [77.34726150561087]
我々は,NLP(Natural Language Processing)と,研究におけるセキュリティ情報抽出に使用される機械学習技術の評価と比較を行った。
本研究では,攻撃者の戦術や手法に従って非構造化テキストを自動的に分類するデータ処理パイプラインを提案する。
論文 参考訳(メタデータ) (2022-07-18T09:59:21Z) - A System for Automated Open-Source Threat Intelligence Gathering and
Management [53.65687495231605]
SecurityKGはOSCTIの収集と管理を自動化するシステムである。
AIとNLP技術を組み合わせて、脅威行動に関する高忠実な知識を抽出する。
論文 参考訳(メタデータ) (2021-01-19T18:31:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。