論文の概要: CyberNER: A Harmonized STIX Corpus for Cybersecurity Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2510.26499v1
- Date: Thu, 30 Oct 2025 13:50:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.843586
- Title: CyberNER: A Harmonized STIX Corpus for Cybersecurity Named Entity Recognition
- Title(参考訳): CyberNER: エンティティ認識というサイバーセキュリティのための調和されたSTIXコーパス
- Authors: Yasir Ech-Chammakhy, Anas Motii, Anass Rabii, Oussama Azrara, Jaafar Chbili,
- Abstract要約: CyberNERは4つの著名なデータセットを調和させて作成された大規模で統一されたコーパスである。
実験の結果,CyberNERでトレーニングしたモデルの性能は大幅に向上した。
- 参考スコア(独自算出の注目度): 0.08622392760665015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting structured intelligence via Named Entity Recognition (NER) is critical for cybersecurity, but the proliferation of datasets with incompatible annotation schemas hinders the development of comprehensive models. While combining these resources is desirable, we empirically demonstrate that naively concatenating them results in a noisy label space that severely degrades model performance. To overcome this critical limitation, we introduce CyberNER, a large-scale, unified corpus created by systematically harmonizing four prominent datasets (CyNER, DNRTI, APTNER, and Attacker) onto the STIX 2.1 standard. Our principled methodology resolves semantic ambiguities and consolidates over 50 disparate source tags into 21 coherent entity types. Our experiments show that models trained on CyberNER achieve a substantial performance gain, with a relative F1-score improvement of approximately 30% over the naive concatenation baseline. By publicly releasing the CyberNER corpus, we provide a crucial, standardized benchmark that enables the creation and rigorous comparison of more robust and generalizable entity extraction models for the cybersecurity domain.
- Abstract(参考訳): 名前付きエンティティ認識(NER)を通じて構造化されたインテリジェンスを抽出することはサイバーセキュリティにとって重要であるが、互換性のないアノテーションスキーマによるデータセットの拡散は、包括的なモデルの開発を妨げる。
これらの資源を組み合わせることが望ましいが、これらの資源を鼻で結合するとノイズの多いラベル空間となり、モデルの性能が著しく低下することが実証的に証明される。
この限界を克服するために、StIX 2.1標準に4つの著名なデータセット(CyNER、DNRTI、APTNER、Attacker)を体系的に調和させることにより、大規模で統一されたコーパスであるCyberNERを導入する。
提案手法は,50以上の異なるソースタグを21個のコヒーレントなエンティティタイプに集約し,セマンティックな曖昧さを解消する。
実験の結果,CyberNERでトレーニングしたモデルでは,比較的F1スコアが約30%向上した。
CyberNERコーパスを公開することにより、サイバーセキュリティドメインのためのより堅牢で汎用的なエンティティ抽出モデルの作成と厳密な比較を可能にする、重要な標準化されたベンチマークを提供する。
関連論文リスト
- Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - The Application of Transformer-Based Models for Predicting Consequences of Cyber Attacks [0.4604003661048266]
脅威モデリング(Threat Modeling)は、サイバーセキュリティの専門家に重要なサポートを提供し、タイムリーに行動し、他の場所で使用可能なリソースを割り当てることを可能にする。
近年,攻撃記述の評価やサイバー攻撃の今後の結果を予測するための自動手法の必要性が高まっている。
本研究では,NLP(Natural Language Processing)とディープラーニング(Deep Learning)がサイバー攻撃の潜在的影響を分析するためにどのように応用できるかを検討する。
論文 参考訳(メタデータ) (2025-08-18T15:46:36Z) - Byzantine-Robust Federated Learning Using Generative Adversarial Networks [1.4091801425319963]
フェデレートラーニング(FL)は、生データを共有せずに分散クライアント間で協調的なモデルトレーニングを可能にするが、その堅牢性は、データやモデル中毒といったビザンチンの行動によって脅かされている。
本稿では,クライアントの更新を検証するための代表データを生成するために,サーバ上の条件付き生成逆ネットワーク(cGAN)を活用することで,これらの課題に対処する防衛フレームワークを提案する。
このアプローチは、外部データセットへの依存を排除し、多様な攻撃戦略に適応し、標準FLにシームレスに統合する。
論文 参考訳(メタデータ) (2025-03-26T18:00:56Z) - Towards a scalable AI-driven framework for data-independent Cyber Threat Intelligence Information Extraction [0.0]
本稿では、効率的なCTI情報抽出のために設計されたスケーラブルなAIベースのフレームワークである0-CTIを紹介する。
提案システムは、CTIレポートの完全なテキストシーケンスを処理し、名前付きエンティティとその関係のサイバーオントロジーを抽出する。
私たちの貢献は、教師付き学習とゼロショット学習の両方をサポートするCTI情報抽出のための最初のモジュラーフレームワークである0-CTIの開発です。
論文 参考訳(メタデータ) (2025-01-08T12:35:17Z) - CTINexus: Automatic Cyber Threat Intelligence Knowledge Graph Construction Using Large Language Models [49.657358248788945]
サイバー脅威インテリジェンス(CTI)レポートのテキスト記述は、サイバー脅威に関する豊富な知識源である。
現在のCTI知識抽出法は柔軟性と一般化性に欠ける。
我々は,データ効率の高いCTI知識抽出と高品質サイバーセキュリティ知識グラフ(CSKG)構築のための新しいフレームワークであるCTINexusを提案する。
論文 参考訳(メタデータ) (2024-10-28T14:18:32Z) - Agent-driven Generative Semantic Communication with Cross-Modality and Prediction [57.335922373309074]
本稿では,強化学習に基づくエージェント駆動型ジェネリックセマンティックコミュニケーションフレームワークを提案する。
本研究では, エージェント支援型セマンティックエンコーダを開発し, 適応的セマンティック抽出とサンプリングを行う。
設計モデルの有効性をUA-DETRACデータセットを用いて検証し、全体的なA-GSCフレームワークの性能向上を実証した。
論文 参考訳(メタデータ) (2024-04-10T13:24:27Z) - An Adversarial Robustness Benchmark for Enterprise Network Intrusion
Detection [0.0]
RF, XGB, LGBM, EBMモデルの定常的, 対角的に訓練されたロバスト性を評価した。
NewCICIDSは、特にXGBとEBMの性能向上に繋がったが、RFとLGBMはHIKARIのサイバー攻撃に対してより堅牢ではなかった。
論文 参考訳(メタデータ) (2024-02-25T16:45:39Z) - A Confidence-based Partial Label Learning Model for Crowd-Annotated
Named Entity Recognition [74.79785063365289]
名前付きエンティティ認識(NER)のための既存のモデルは、主に大規模ラベル付きデータセットに基づいている。
我々は,クラウドアノテートNERに対する先行信頼度(アノテータによる提案)と後続信頼度(モデルによる学習)を統合するために,信頼に基づく部分ラベル学習(CPLL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-21T15:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。