論文の概要: SecureBERT 2.0: Advanced Language Model for Cybersecurity Intelligence
- arxiv url: http://arxiv.org/abs/2510.00240v1
- Date: Tue, 30 Sep 2025 20:12:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.238801
- Title: SecureBERT 2.0: Advanced Language Model for Cybersecurity Intelligence
- Title(参考訳): SecureBERT 2.0: サイバーセキュリティインテリジェンスのための高度な言語モデル
- Authors: Ehsan Aghaei, Sarthak Jain, Prashanth Arun, Arjun Sambamoorthy,
- Abstract要約: サイバーセキュリティアプリケーション向けに開発されたエンコーダのみの言語モデルであるSecureBERT 2.0を提案する。
改良された長文モデリングと階層符号化を導入し、拡張および異種文書の効率的な処理を可能にした。
SecureBERT 2.0は、複数のサイバーセキュリティベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 5.844061361572245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective analysis of cybersecurity and threat intelligence data demands language models that can interpret specialized terminology, complex document structures, and the interdependence of natural language and source code. Encoder-only transformer architectures provide efficient and robust representations that support critical tasks such as semantic search, technical entity extraction, and semantic analysis, which are key to automated threat detection, incident triage, and vulnerability assessment. However, general-purpose language models often lack the domain-specific adaptation required for high precision. We present SecureBERT 2.0, an enhanced encoder-only language model purpose-built for cybersecurity applications. Leveraging the ModernBERT architecture, SecureBERT 2.0 introduces improved long-context modeling and hierarchical encoding, enabling effective processing of extended and heterogeneous documents, including threat reports and source code artifacts. Pretrained on a domain-specific corpus more than thirteen times larger than its predecessor, comprising over 13 billion text tokens and 53 million code tokens from diverse real-world sources, SecureBERT 2.0 achieves state-of-the-art performance on multiple cybersecurity benchmarks. Experimental results demonstrate substantial improvements in semantic search for threat intelligence, semantic analysis, cybersecurity-specific named entity recognition, and automated vulnerability detection in code within the cybersecurity domain.
- Abstract(参考訳): サイバーセキュリティと脅威情報データの効果的な分析は、専門用語、複雑な文書構造、および自然言語とソースコードの相互依存を解釈できる言語モデルを要求する。
エンコーダのみのトランスフォーマーアーキテクチャは、セマンティック検索、技術的エンティティ抽出、セマンティック分析といった重要なタスクをサポートする効率的で堅牢な表現を提供する。
しかし、汎用言語モデルは、しばしば高精度に必要なドメイン固有の適応を欠いている。
サイバーセキュリティアプリケーション向けに開発されたエンコーダのみの言語モデルであるSecureBERT 2.0を提案する。
ModernBERTアーキテクチャを活用することで、SecureBERT 2.0は改善された長文モデリングと階層的エンコーディングを導入し、脅威レポートやソースコードアーティファクトを含む拡張および異種文書の効率的な処理を可能にした。
SecureBERT 2.0は、13億以上のテキストトークンと5300万のコードトークンを含む、前機種の13倍以上のドメイン固有コーパスで事前訓練され、複数のサイバーベンチマークベンチマークで最先端のパフォーマンスを達成する。
実験結果は、脅威知能のセマンティックサーチ、セマンティック分析、サイバーセキュリティ固有の名前付きエンティティ認識、サイバーセキュリティドメイン内のコードにおける自動脆弱性検出の大幅な改善を示す。
関連論文リスト
- The Application of Transformer-Based Models for Predicting Consequences of Cyber Attacks [0.4604003661048266]
脅威モデリング(Threat Modeling)は、サイバーセキュリティの専門家に重要なサポートを提供し、タイムリーに行動し、他の場所で使用可能なリソースを割り当てることを可能にする。
近年,攻撃記述の評価やサイバー攻撃の今後の結果を予測するための自動手法の必要性が高まっている。
本研究では,NLP(Natural Language Processing)とディープラーニング(Deep Learning)がサイバー攻撃の潜在的影響を分析するためにどのように応用できるかを検討する。
論文 参考訳(メタデータ) (2025-08-18T15:46:36Z) - Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - CTINexus: Automatic Cyber Threat Intelligence Knowledge Graph Construction Using Large Language Models [49.657358248788945]
サイバー脅威インテリジェンス(CTI)レポートのテキスト記述は、サイバー脅威に関する豊富な知識源である。
現在のCTI知識抽出法は柔軟性と一般化性に欠ける。
我々は,データ効率の高いCTI知識抽出と高品質サイバーセキュリティ知識グラフ(CSKG)構築のための新しいフレームワークであるCTINexusを提案する。
論文 参考訳(メタデータ) (2024-10-28T14:18:32Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Revolutionizing Cyber Threat Detection with Large Language Models: A
privacy-preserving BERT-based Lightweight Model for IoT/IIoT Devices [3.340416780217405]
本稿では,インターネットネットワークにおけるサイバー脅威検出にBERT(Bidirectional Representations from Transformers)モデルを活用する,新たなアーキテクチャであるSecurityBERTを提案する。
我々の研究は、SecurityBERTがサイバー脅威検出において、畳み込みニューラルネットワーク(CNNIoT)やリカレントニューラルネットワーク(IoTRNN)など、従来の機械学習(ML)とディープラーニング(DL)の手法より優れていることを示した。
SecurityBERTは、14の異なる攻撃タイプを特定することで、98.2%の全体的な精度を達成し、ハイブリッドソリューションによって設定された過去の記録を上回った。
論文 参考訳(メタデータ) (2023-06-25T15:04:21Z) - Multi-features based Semantic Augmentation Networks for Named Entity
Recognition in Threat Intelligence [7.321994923276344]
本稿では,入力トークンの表現を豊かにするために,異なる言語的特徴を取り入れた意味拡張手法を提案する。
特に,各入力トークンの構成特徴,形態的特徴,音声特徴の一部を符号化して集約し,その堅牢性を向上させる。
サイバーセキュリティデータセットDNRTIとMalwareTextDBについて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-07-01T06:55:12Z) - A Deep Learning Approach for Ontology Enrichment from Unstructured Text [2.932750332087746]
既存のWeb上の攻撃、コントロール、アドバイザリの情報脆弱性は、セキュリティ分析を表現し、実行する機会を提供する。
自然言語処理とMLモデルに基づくオントロジーエンリッチメントアルゴリズムは、単語、フレーズ、文における概念の文脈的抽出に問題がある。
大規模なDBデータセットと2.8GBのウィキペディアコーパスとUniversal Sentenceでトレーニングされた双方向LSTMは、ISOベースの情報セキュリティを強化するためにデプロイされる。
論文 参考訳(メタデータ) (2021-12-16T01:32:21Z) - OntoEnricher: A Deep Learning Approach for Ontology Enrichment from
Unstructured Text [2.707154152696381]
Web上で利用可能な脆弱性、コントロール、アドバイザリに関する既存の情報は、知識を表現し、関心事の一部を緩和するために分析を行う機会を提供する。
これは情報セキュリティの動的かつ自動化された強化を必要とする。
自然言語処理とMLモデルに基づく既存のオントロジーエンリッチメントアルゴリズムは、単語、フレーズ、文における概念の文脈的抽出に問題がある。
論文 参考訳(メタデータ) (2021-02-08T09:43:05Z) - Enabling Efficient Cyber Threat Hunting With Cyber Threat Intelligence [94.94833077653998]
ThreatRaptorは、オープンソースのCyber Threat Intelligence(OSCTI)を使用して、コンピュータシステムにおける脅威追跡を容易にするシステムである。
構造化されていないOSCTIテキストから構造化された脅威行動を抽出し、簡潔で表現力豊かなドメイン固有クエリ言語TBQLを使用して悪意のあるシステムアクティビティを探索する。
広範囲にわたる攻撃事例の評価は、現実的な脅威狩りにおけるThreatRaptorの精度と効率を実証している。
論文 参考訳(メタデータ) (2020-10-26T14:54:01Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。