論文の概要: From Text to Actionable Intelligence: Automating STIX Entity and Relationship Extraction
- arxiv url: http://arxiv.org/abs/2507.16576v1
- Date: Tue, 22 Jul 2025 13:27:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.133339
- Title: From Text to Actionable Intelligence: Automating STIX Entity and Relationship Extraction
- Title(参考訳): テキストからアクションインテリジェンスへ:STIXエンティティの自動化と関係抽出
- Authors: Ahmed Lekssays, Husrev Taha Sencar, Ting Yu,
- Abstract要約: AZERGはセキュリティアナリストが自動的に構造化STIX表現を生成するのを支援するために設計されたツールである。
タスク固有の微調整を適用し、関連するエンティティを正確に抽出し、STIX仕様に従ってそれらの関係を推測する。
我々のモデルは、T1の84.43%、T2の88.49%、T3の95.47%、現実世界のシナリオでの84.60%のF1スコアを達成した。
- 参考スコア(独自算出の注目度): 8.623367082899946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sharing methods of attack and their effectiveness is a cornerstone of building robust defensive systems. Threat analysis reports, produced by various individuals and organizations, play a critical role in supporting security operations and combating emerging threats. To enhance the timeliness and automation of threat intelligence sharing, several standards have been established, with the Structured Threat Information Expression (STIX) framework emerging as one of the most widely adopted. However, generating STIX-compatible data from unstructured security text remains a largely manual, expert-driven process. To address this challenge, we introduce AZERG, a tool designed to assist security analysts in automatically generating structured STIX representations. To achieve this, we adapt general-purpose large language models for the specific task of extracting STIX-formatted threat data. To manage the complexity, the task is divided into four subtasks: entity detection (T1), entity type identification (T2), related pair detection (T3), and relationship type identification (T4). We apply task-specific fine-tuning to accurately extract relevant entities and infer their relationships in accordance with the STIX specification. To address the lack of training data, we compiled a comprehensive dataset with 4,011 entities and 2,075 relationships extracted from 141 full threat analysis reports, all annotated in alignment with the STIX standard. Our models achieved F1-scores of 84.43% for T1, 88.49% for T2, 95.47% for T3, and 84.60% for T4 in real-world scenarios. We validated their performance against a range of open- and closed-parameter models, as well as state-of-the-art methods, demonstrating improvements of 2-25% across tasks.
- Abstract(参考訳): 攻撃方法の共有とその有効性は、堅牢な防御システムを構築するための基盤となる。
脅威分析レポートは、様々な個人や組織によって作成され、セキュリティオペレーションを支援し、新たな脅威と戦う上で重要な役割を担っている。
脅威情報共有のタイムラインと自動化を強化するため、Structured Threat Information Expression (STIX)フレームワークが広く採用されている。
しかし、構造化されていないセキュリティテキストからSTIX互換のデータを生成することは、主に手作業で専門家主導のプロセスである。
この課題に対処するために,セキュリティアナリストが構造化STIX表現を自動生成するのを支援するツールであるAZERGを紹介する。
そこで本研究では,STIX形式の脅威データを抽出する特定のタスクに対して,汎用的な大規模言語モデルを適用する。
複雑さを管理するために、タスクは、エンティティ検出(T1)、エンティティタイプ識別(T2)、関連ペア検出(T3)、関係タイプ識別(T4)の4つのサブタスクに分けられる。
タスク固有の微調整を適用し、関連するエンティティを正確に抽出し、STIX仕様に従ってそれらの関係を推測する。
トレーニングデータの欠如に対処するため,STIX標準に準拠した141件の全脅威分析レポートから抽出した,4,011件のエンティティと2,075件の関連性を備えた包括的なデータセットをまとめた。
我々のモデルは、T1の84.43%、T2の88.49%、T3の95.47%、現実世界のシナリオでの84.60%のF1スコアを達成した。
オープンパラメータモデルとクローズドパラメータモデル、および最先端手法に対して、それらの性能を検証し、タスク間で2~25%の改善を実証した。
関連論文リスト
- OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - FORGE: An LLM-driven Framework for Large-Scale Smart Contract Vulnerability Dataset Construction [34.20628333535654]
FORGEはスマートコントラクト脆弱性データセットを構築するための最初の自動化アプローチである。
81,390のソリッドリティファイルと27,497の脆弱性を296のCWEカテゴリに分類したデータセットを生成した。
その結果、現在の検出能力の重大な制限が明らかになった。
論文 参考訳(メタデータ) (2025-06-23T16:03:16Z) - OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models [73.6716695218951]
Over-refusalは$textitover-refusal$として知られる現象で、T2Iモデルの実用性を減らす。
我々は,OVERT(textbfOVE$r-$textbfR$efusal evaluation on $textbfT$ext-to-image model)を提案する。
論文 参考訳(メタデータ) (2025-05-27T15:42:46Z) - Towards Effective Identification of Attack Techniques in Cyber Threat Intelligence Reports using Large Language Models [5.304267859042463]
本研究は,Web上で利用可能な脅威レポートから攻撃手法を識別するためのサイバー脅威情報(CTI)抽出手法の性能を評価する。
我々は、Threat Report ATT&CK Mapper(TRAM)やLlama2のようなオープンソースのLarge Language Models(LLM)など、最先端ツールを利用する4つの構成を分析した。
以上の結果から, クラス不均衡, オーバーフィッティング, ドメイン固有の複雑性など, 正確なテクニック抽出を阻害する重要な課題が明らかとなった。
論文 参考訳(メタデータ) (2025-05-06T03:43:12Z) - CTI-HAL: A Human-Annotated Dataset for Cyber Threat Intelligence Analysis [2.7862108332002546]
サイバー脅威インテリジェンス(CTI)の情報源は、しばしば非構造化されており、自然言語で情報を自動的に抽出することは困難である。
近年,CTIデータからAIを自動抽出する方法が研究されている。
我々は,MITRE ATT&CKフレームワークに基づいて,CTIレポートを手作業で構築し,構造化した新しいデータセットを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:47:15Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z) - CTINexus: Automatic Cyber Threat Intelligence Knowledge Graph Construction Using Large Language Models [49.657358248788945]
サイバー脅威インテリジェンス(CTI)レポートのテキスト記述は、サイバー脅威に関する豊富な知識源である。
現在のCTI知識抽出法は柔軟性と一般化性に欠ける。
我々は,データ効率の高いCTI知識抽出と高品質サイバーセキュリティ知識グラフ(CSKG)構築のための新しいフレームワークであるCTINexusを提案する。
論文 参考訳(メタデータ) (2024-10-28T14:18:32Z) - TTPXHunter: Actionable Threat Intelligence Extraction as TTPs from Finished Cyber Threat Reports [3.2183320563774833]
敵の様相を知ることは、組織が効果的な防衛戦略を採用し、コミュニティで知性を共有するのを助ける。
脅威レポートの文で説明されたmodus operandiを解釈し、構造化フォーマットに変換するには、翻訳ツールが必要である。
本研究は、TTPXHunterという手法を用いて、サイバー脅威レポートから脅威情報を自動的に抽出する手法を紹介する。
論文 参考訳(メタデータ) (2024-03-05T19:04:09Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - AGIR: Automating Cyber Threat Intelligence Reporting with Natural
Language Generation [15.43868945929965]
我々は,CTIレポートの変換ツールであるAGIR(Automatic Generation of Intelligence Reports)を紹介する。
AGIRの主な目的は、包括的インテリジェンスレポートを生成するための労働集約的なタスクを自動化することで、セキュリティアナリストを強化することである。
我々はAGIRのレポート生成能力を定量的かつ質的に評価する。
論文 参考訳(メタデータ) (2023-10-04T08:25:37Z) - Automated Few-shot Classification with Instruction-Finetuned Language
Models [76.69064714392165]
我々は、AuT-Fewが最先端の数ショット学習方法より優れていることを示す。
AuT-Few は RAFT few-shot ベンチマークにおいて,データセット間で最高のランク付け手法であることを示す。
論文 参考訳(メタデータ) (2023-05-21T21:50:27Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。