論文の概要: Time for aCTIon: Automated Analysis of Cyber Threat Intelligence in the
Wild
- arxiv url: http://arxiv.org/abs/2307.10214v1
- Date: Fri, 14 Jul 2023 13:43:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-23 11:16:15.899706
- Title: Time for aCTIon: Automated Analysis of Cyber Threat Intelligence in the
Wild
- Title(参考訳): ACTIonの時間: 野生におけるサイバー脅威情報の自動分析
- Authors: Giuseppe Siracusano, Davide Sanvito, Roberto Gonzalez, Manikantan
Srinivasan, Sivakaman Kamatchi, Wataru Takahashi, Masaru Kawakita, Takahiro
Kakumaru, Roberto Bifulco
- Abstract要約: サイバー脅威インテリジェンス(CTI)は、リスクの評価と組織のセキュリティ向上に重要な役割を果たしている。
既存の構造化CTI抽出ツールには性能制限がある。
我々はこれらのギャップを埋め、新しい大きなオープンベンチマークデータセットと構造化されたCTI情報抽出ツールであるaCTIonを提供する。
- 参考スコア(独自算出の注目度): 2.4669630540735215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cyber Threat Intelligence (CTI) plays a crucial role in assessing risks and
enhancing security for organizations. However, the process of extracting
relevant information from unstructured text sources can be expensive and
time-consuming. Our empirical experience shows that existing tools for
automated structured CTI extraction have performance limitations. Furthermore,
the community lacks a common benchmark to quantitatively assess their
performance. We fill these gaps providing a new large open benchmark dataset
and aCTIon, a structured CTI information extraction tool. The dataset includes
204 real-world publicly available reports and their corresponding structured
CTI information in STIX format. Our team curated the dataset involving three
independent groups of CTI analysts working over the course of several months.
To the best of our knowledge, this dataset is two orders of magnitude larger
than previously released open source datasets. We then design aCTIon,
leveraging recently introduced large language models (GPT3.5) in the context of
two custom information extraction pipelines. We compare our method with 10
solutions presented in previous work, for which we develop our own
implementations when open-source implementations were lacking. Our results show
that aCTIon outperforms previous work for structured CTI extraction with an
improvement of the F1-score from 10%points to 50%points across all tasks.
- Abstract(参考訳): サイバー脅威インテリジェンス(CTI)は、リスクの評価と組織のセキュリティ向上に重要な役割を果たしている。
しかし、構造化されていないテキストソースから関連情報を抽出するプロセスは高価で時間がかかる。
我々の経験から、構造化CTIの自動抽出ツールは性能に限界があることが分かる。
さらに、コミュニティはパフォーマンスを定量的に評価する共通のベンチマークを欠いている。
我々はこれらのギャップを埋め、新しい大規模オープンベンチマークデータセットと構造化cti情報抽出ツールであるactionを提供する。
データセットには204の現実世界で公開されているレポートと、それに対応する構造的なcti情報が含まれている。
当社のチームは、数ヶ月にわたって3つの独立したctiアナリストグループによるデータセットをキュレートしました。
私たちの知る限りでは、このデータセットは、以前リリースされたオープンソースデータセットよりも2桁大きい。
次に,2つのカスタム情報抽出パイプラインのコンテキストで最近導入された大規模言語モデル(gpt3.5)を活用して,アクションを設計する。
提案手法を従来の10のソリューションと比較し,オープンソース実装が不足している場合に独自の実装を開発する。
その結果,すべてのタスクにおいて,f1-scoreが10%から50%に改善され,構造的cti抽出に対する従来の作業よりも動作が優れていることがわかった。
関連論文リスト
- DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Actionable Cyber Threat Intelligence using Knowledge Graphs and Large Language Models [0.8192907805418583]
Microsoft、Trend Micro、CrowdStrikeはCTI抽出を容易にするために生成AIを使用している。
本稿では,Large Language Models(LLMs)とKGs(KGs)の進歩を利用して,実行可能なCTIの抽出を自動化するという課題に対処する。
本手法は,情報抽出と構造化を最適化するために,プロンプトエンジニアリング,ガイダンスフレームワーク,微調整などの手法を評価する。
実験により,本手法が関連する情報抽出に有効であることを示すとともに,指導と微調整により,迅速な工学よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-30T13:02:03Z) - DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries [0.0]
OpenAIのGPT-3.5をLanguage Data Scientist(LDS)として評価する
このモデルは、さまざまなベンチマークデータセットでテストされ、そのパフォーマンスを複数の標準で評価した。
論文 参考訳(メタデータ) (2024-03-29T22:59:34Z) - Automated Contrastive Learning Strategy Search for Time Series [48.68664732145665]
コントラスト学習(CL)は,時系列の表現学習パラダイムとして主流となっている。
我々はMicrosoftでAutomated Machine Learning(AutoML)の実践を紹介し、様々な時系列データセットの学習表現をコントラストに自動的に学習する。
論文 参考訳(メタデータ) (2024-03-19T11:24:14Z) - On the Cross-Dataset Generalization of Machine Learning for Network
Intrusion Detection [50.38534263407915]
ネットワーク侵入検知システム(NIDS)はサイバーセキュリティの基本的なツールである。
多様なネットワークにまたがる一般化能力は、その有効性と現実のアプリケーションにとって必須の要素である。
本研究では,機械学習に基づくNIDSの一般化に関する包括的分析を行う。
論文 参考訳(メタデータ) (2024-02-15T14:39:58Z) - TSTEM: A Cognitive Platform for Collecting Cyber Threat Intelligence in the Wild [0.06597195879147556]
オープンソースからサイバー脅威情報(CTI)を抽出することは、急速に拡大する防衛戦略である。
従来の研究では、抽出プロセスの個々のコンポーネントの改善に焦点が当てられていた。
コミュニティには、ストリーミングCTIデータパイプラインを野放しに展開するオープンソースプラットフォームがない。
論文 参考訳(メタデータ) (2024-02-15T14:29:21Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、より多くの洞察を提供するさまざまなメトリクスの使用を可能にします。
本稿では,言語モデル(LM)のパワーを活用し,効率と効率を向上させる新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - AGIR: Automating Cyber Threat Intelligence Reporting with Natural
Language Generation [15.43868945929965]
我々は,CTIレポートの変換ツールであるAGIR(Automatic Generation of Intelligence Reports)を紹介する。
AGIRの主な目的は、包括的インテリジェンスレポートを生成するための労働集約的なタスクを自動化することで、セキュリティアナリストを強化することである。
我々はAGIRのレポート生成能力を定量的かつ質的に評価する。
論文 参考訳(メタデータ) (2023-10-04T08:25:37Z) - Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。
知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文 参考訳(メタデータ) (2023-05-29T19:48:37Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Cognitive Computing to Optimize IT Services [0.0]
認知的ソリューションは、構造化されたテキストと非構造化されたテキストの両方の深い分析によって、従来の構造化されたデータ分析を越えている。
実験では,提案手法により年額チケットの18~25%を削減した。
論文 参考訳(メタデータ) (2021-12-28T09:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。