論文の概要: TIJERE: A Novel Threat Intelligence Joint Extraction Model Based on Analyst Expert Knowledge
- arxiv url: http://arxiv.org/abs/2605.02041v1
- Date: Sun, 03 May 2026 20:10:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.056057
- Title: TIJERE: A Novel Threat Intelligence Joint Extraction Model Based on Analyst Expert Knowledge
- Title(参考訳): TIJERE:アナリストの知識に基づく新たな脅威情報統合抽出モデル
- Authors: Inoussa Mouiche, Sherif Saad,
- Abstract要約: TIJEREは革新的な共同組織であり、関係抽出フレームワークである。
DNRTI-JEは,サイバーセキュリティエンティティと関係抽出のための共同ラベル付きデータセットである。
TIJEREは最先端のパフォーマンスを達成し、F1スコアはNERが0.93、REが0.98を超え、既存の手法より優れている。
- 参考スコア(独自算出の注目度): 0.7591490481106252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The extraction of entities and relationships from threat intelligence reports into structured formats, such as cybersecurity knowledge graphs, is essential for automated threat analysis, detection, and mitigation. However, existing joint extraction methods struggle with feature confusion, language ambiguity, noise propagation, and overlapping relations, resulting in low accuracy and poor model performance. This paper presents TIJERE, an innovative joint entity and relation extraction framework that formulates joint extraction as a multisequence labeling representation (MSLR) problem. Specifically, separate sequences are generated for each entity pair. Unlike prior tagging schemes, MSLR integrates expert domain features to enrich positional, contextual, and semantic representations of entities, thereby enhancing feature distinction and classification accuracy. Additionally, TIJERE reduces language ambiguity and enhances domain-specific generalization by leveraging SecureBERT+, a contextual language model fine-tuned on cybersecurity text. This improves both named entity recognition (NER) and relation extraction (RE). This paper also introduces DNRTI-JE, the first publicly available jointly labeled dataset for cybersecurity entity and RE, filling a crucial gap in cyber threat intelligence automation. Empirical evaluations on the curated DNRTI-JE dataset demonstrate that TIJERE achieves state-of-the-art performance, with F1-scores exceeding 0.93 for NER and 0.98 for RE, outperforming existing methods. Together, TIJERE and the standardized benchmarking DNRTI-JE dataset enable high-performance cybersecurity intelligence extraction, with transferable applications in healthcare, finance, and bioinformatics.
- Abstract(参考訳): サイバーセキュリティ知識グラフのような構造化フォーマットへの脅威情報レポートからのエンティティと関係の抽出は、自動脅威分析、検出、緩和に不可欠である。
しかし,既存の共同抽出手法では,特徴の混乱,言語あいまいさ,雑音伝搬,重なり合う関係に悩まされ,精度が低く,モデル性能が劣る。
本稿では,Multiquence labeling representation(MSLR)問題として関節抽出を定式化する,革新的なジョイントエンティティと関係抽出フレームワークであるTIJEREを提案する。
具体的には、各エンティティペア毎に個別のシーケンスを生成する。
従来のタグ付け方式とは異なり、MSLRは専門的なドメイン機能を統合し、エンティティの位置、文脈、意味的な表現を強化し、特徴の区別と分類の精度を高める。
さらに、TIJEREは、サイバーセキュリティテキストに微調整された文脈言語モデルSecureBERT+を活用することにより、言語の曖昧さを低減し、ドメイン固有の一般化を強化する。
これにより、名前付きエンティティ認識(NER)と関係抽出(RE)の両方が改善される。
DNRTI-JEは、サイバーセキュリティエンティティとREのための共同ラベル付きデータセットであり、サイバー脅威情報自動化における重要なギャップを埋めるものである。
DNRTI-JEデータセットの実験的評価は、TIJEREが最先端のパフォーマンスを達成し、F1スコアはNERが0.93、REが0.98を超え、既存の手法よりも優れていたことを示している。
TIJEREと標準化されたDNRTI-JEデータセットは、医療、ファイナンス、バイオインフォマティクスにおける転送可能なアプリケーションを含む高性能なサイバーセキュリティインテリジェンス抽出を可能にする。
関連論文リスト
- Enabling Transparent Cyber Threat Intelligence Combining Large Language Models and Domain Ontologies [3.4423725226938426]
ログからの情報抽出の精度と説明性を向上するAIエージェントを構築するための新しい手法を提案する。
本手法の設計は,ハニーポットデータに関連する解析的要件によって動機付けられている。
その結果,従来のプロンプトのみの手法に比べて,情報抽出の精度が高いことがわかった。
論文 参考訳(メタデータ) (2025-08-26T23:17:33Z) - CTI-HAL: A Human-Annotated Dataset for Cyber Threat Intelligence Analysis [2.7862108332002546]
サイバー脅威インテリジェンス(CTI)の情報源は、しばしば非構造化されており、自然言語で情報を自動的に抽出することは困難である。
近年,CTIデータからAIを自動抽出する方法が研究されている。
我々は,MITRE ATT&CKフレームワークに基づいて,CTIレポートを手作業で構築し,構造化した新しいデータセットを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:47:15Z) - A Cooperative Multi-Agent Framework for Zero-Shot Named Entity Recognition [71.61103962200666]
ゼロショット名付きエンティティ認識(NER)は、注釈のないテキストコーパスからエンティティ認識システムを開発することを目的としている。
最近の研究は、特別なプロンプトテンプレートを作成することで、ゼロショットNERに大規模な言語モデル(LLM)を適用している。
ゼロショットNERのための新しいフレームワークである協調型マルチエージェントシステム(CMAS)を紹介する。
論文 参考訳(メタデータ) (2025-02-25T23:30:43Z) - Towards a scalable AI-driven framework for data-independent Cyber Threat Intelligence Information Extraction [0.0]
本稿では、効率的なCTI情報抽出のために設計されたスケーラブルなAIベースのフレームワークである0-CTIを紹介する。
提案システムは、CTIレポートの完全なテキストシーケンスを処理し、名前付きエンティティとその関係のサイバーオントロジーを抽出する。
私たちの貢献は、教師付き学習とゼロショット学習の両方をサポートするCTI情報抽出のための最初のモジュラーフレームワークである0-CTIの開発です。
論文 参考訳(メタデータ) (2025-01-08T12:35:17Z) - CTINexus: Automatic Cyber Threat Intelligence Knowledge Graph Construction Using Large Language Models [49.657358248788945]
サイバー脅威インテリジェンス(CTI)レポートのテキスト記述は、サイバー脅威に関する豊富な知識源である。
現在のCTI知識抽出法は柔軟性と一般化性に欠ける。
我々は,データ効率の高いCTI知識抽出と高品質サイバーセキュリティ知識グラフ(CSKG)構築のための新しいフレームワークであるCTINexusを提案する。
論文 参考訳(メタデータ) (2024-10-28T14:18:32Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Cross-Supervised Joint-Event-Extraction with Heterogeneous Information
Networks [61.950353376870154]
Joint-event- Extractは、トリガとエンティティのタグからなるタグセットを備えたシーケンスからシーケンスまでのラベリングタスクである。
トリガやエンティティの抽出を交互に監督するクロススーパーバイザードメカニズム(CSM)を提案する。
我々の手法は、エンティティとトリガー抽出の両方において最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2020-10-13T11:51:17Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。