論文の概要: SynthCTI: LLM-Driven Synthetic CTI Generation to enhance MITRE Technique Mapping
- arxiv url: http://arxiv.org/abs/2507.16852v1
- Date: Mon, 21 Jul 2025 09:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.688629
- Title: SynthCTI: LLM-Driven Synthetic CTI Generation to enhance MITRE Technique Mapping
- Title(参考訳): SynthCTI: MITRE技術マッピングを強化するLLM駆動型合成CTI生成
- Authors: Álvaro Ruiz-Ródenas, Jaime Pujante Sáez, Daniel García-Algora, Mario Rodríguez Béjar, Jorge Blasco, José Luis Hernández-Ramos,
- Abstract要約: 我々は,表現不足のMITRE ATT&CK技術に対して,高品質な合成CTI文を生成するためのフレームワークであるSynthCTIを提案する。
本手法では,学習データから意味コンテキストを抽出するためにクラスタリングベースの戦略を用いる。
利用可能な2つのCTIデータセットであるCTI-to-MITREとTRAM上で,異なる容量のLLMを用いてSynthCTIを評価する。
- 参考スコア(独自算出の注目度): 1.2534672170380357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cyber Threat Intelligence (CTI) mining involves extracting structured insights from unstructured threat data, enabling organizations to understand and respond to evolving adversarial behavior. A key task in CTI mining is mapping threat descriptions to MITRE ATT\&CK techniques. However, this process is often performed manually, requiring expert knowledge and substantial effort. Automated approaches face two major challenges: the scarcity of high-quality labeled CTI data and class imbalance, where many techniques have very few examples. While domain-specific Large Language Models (LLMs) such as SecureBERT have shown improved performance, most recent work focuses on model architecture rather than addressing the data limitations. In this work, we present SynthCTI, a data augmentation framework designed to generate high-quality synthetic CTI sentences for underrepresented MITRE ATT\&CK techniques. Our method uses a clustering-based strategy to extract semantic context from training data and guide an LLM in producing synthetic CTI sentences that are lexically diverse and semantically faithful. We evaluate SynthCTI on two publicly available CTI datasets, CTI-to-MITRE and TRAM, using LLMs with different capacity. Incorporating synthetic data leads to consistent macro-F1 improvements: for example, ALBERT improves from 0.35 to 0.52 (a relative gain of 48.6\%), and SecureBERT reaches 0.6558 (up from 0.4412). Notably, smaller models augmented with SynthCTI outperform larger models trained without augmentation, demonstrating the value of data generation methods for building efficient and effective CTI classification systems.
- Abstract(参考訳): サイバー脅威インテリジェンス(CTI)マイニングは、構造化されていない脅威データから構造化された洞察を抽出し、組織が進化する敵の行動を理解し、対応できるようにする。
CTI採掘における重要な課題は、脅威記述をMITRE ATT\&CK技術にマッピングすることである。
しかし、このプロセスはしばしば手作業で行われ、専門家の知識とかなりの努力を必要とします。
高品質なラベル付きCTIデータの不足と,多くのテクニックがごく少数であるクラス不均衡という,2つの大きな課題に直面している。
SecureBERTのようなドメイン固有のLarge Language Model(LLM)は、パフォーマンスが改善されているが、最近の研究は、データ制限に対処するのではなく、モデルアーキテクチャに焦点を当てている。
本研究では,表現不足のMITRE ATT\&CK技術に対して,高品質な合成CTI文を生成するためのデータ拡張フレームワークであるSynthCTIを提案する。
本手法はクラスタリングに基づく手法を用いて,学習データから意味的文脈を抽出し,語彙的に多様で意味的に忠実な合成CTI文を生成するためのLLMを誘導する。
利用可能な2つのCTIデータセットであるCTI-to-MITREとTRAM上で,異なる容量のLLMを用いてSynthCTIを評価する。
例えば、ALBERTは0.35から0.52(48.6\%)に改善され、SecureBERTは0.6558(0.4412から)に達した。
特に、SynthCTIで強化されたより小さなモデルは、拡張なしで訓練されたより大きなモデルより優れており、効率的で効果的なCTI分類システムを構築するためのデータ生成方法の価値を実証している。
関連論文リスト
- CoT-Self-Instruct: Building high-quality synthetic prompts for reasoning and non-reasoning tasks [57.482238100217195]
合成データ生成手法CoT-Self-Instructを提案する。
検証可能な推論において、我々の合成データはs1kやOpenMathReasoningといった既存のトレーニングデータセットよりも大幅に優れています。
検証不能な命令追従タスクに対しては、AlpacaEval 2.0とArena-Hardの両方で、人間または標準の自己指示プロンプトの性能を上回ります。
論文 参考訳(メタデータ) (2025-07-31T17:38:50Z) - SMOTExT: SMOTE meets Large Language Models [19.394116388173885]
本稿では,SMOTE(Synthetic Minority Over-sampling)の概念をテキストデータに適用する新しい手法SMOTExTを提案する。
提案手法は,既存の2つの例のBERTベースの埋め込みを補間することにより,新しい合成例を生成する。
初期の実験では、生成されたデータのみを対象としたトレーニングモデルは、元のデータセットでトレーニングされたモデルと同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-05-19T17:57:36Z) - Towards Effective Identification of Attack Techniques in Cyber Threat Intelligence Reports using Large Language Models [5.304267859042463]
本研究は,Web上で利用可能な脅威レポートから攻撃手法を識別するためのサイバー脅威情報(CTI)抽出手法の性能を評価する。
我々は、Threat Report ATT&CK Mapper(TRAM)やLlama2のようなオープンソースのLarge Language Models(LLM)など、最先端ツールを利用する4つの構成を分析した。
以上の結果から, クラス不均衡, オーバーフィッティング, ドメイン固有の複雑性など, 正確なテクニック抽出を阻害する重要な課題が明らかとなった。
論文 参考訳(メタデータ) (2025-05-06T03:43:12Z) - CTI-HAL: A Human-Annotated Dataset for Cyber Threat Intelligence Analysis [2.7862108332002546]
サイバー脅威インテリジェンス(CTI)の情報源は、しばしば非構造化されており、自然言語で情報を自動的に抽出することは困難である。
近年,CTIデータからAIを自動抽出する方法が研究されている。
我々は,MITRE ATT&CKフレームワークに基づいて,CTIレポートを手作業で構築し,構造化した新しいデータセットを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:47:15Z) - AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing [64.79967583649407]
知識追跡(KT)は、学生の知識状態を監視し、質問シーケンスに対する反応をシミュレートする。
既存のKTモデルは通常、単一ステップのトレーニングパラダイムに従っており、大きなエラーの蓄積につながる。
本稿では,多段階KTタスクに着目した新しい知識追跡のための多段階学習フレームワーク(AdvKT)を提案する。
論文 参考訳(メタデータ) (2025-04-07T03:31:57Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - CTINexus: Automatic Cyber Threat Intelligence Knowledge Graph Construction Using Large Language Models [49.657358248788945]
サイバー脅威インテリジェンス(CTI)レポートのテキスト記述は、サイバー脅威に関する豊富な知識源である。
現在のCTI知識抽出法は柔軟性と一般化性に欠ける。
我々は,データ効率の高いCTI知識抽出と高品質サイバーセキュリティ知識グラフ(CSKG)構築のための新しいフレームワークであるCTINexusを提案する。
論文 参考訳(メタデータ) (2024-10-28T14:18:32Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Synthetic Network Traffic Data Generation: A Comparative Study [0.0]
既存の合成データ生成法は, 統計的忠実性, 分類タスクの実用性, クラスバランスの維持能力に大きく違いがある。
本研究では、非AI(統計)、古典AI、生成AI技術を含む12種類の合成ネットワークトラフィックデータ生成手法の比較分析を行った。
GANモデル,特にCTGANとCopulaGANは,高品質な合成データ生成に最適であることを示す。
論文 参考訳(メタデータ) (2024-10-18T14:19:25Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。