論文の概要: Knowledge-to-Data: LLM-Driven Synthesis of Structured Network Traffic for Testbed-Free IDS Evaluation
- arxiv url: http://arxiv.org/abs/2601.05022v1
- Date: Thu, 08 Jan 2026 15:31:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.252981
- Title: Knowledge-to-Data: LLM-Driven Synthesis of Structured Network Traffic for Testbed-Free IDS Evaluation
- Title(参考訳): 知識からデータへ:テストベッドフリーIDS評価のための構造化ネットワークトラフィックのLLM駆動合成
- Authors: Konstantinos E. Kampourakis, Vyron Kampourakis, Efstratios Chatzoglou, Georgios Kambourakis, Stefanos Gritzalis,
- Abstract要約: 本稿では,Large Language Models (LLMs) が構造化された合成ネットワークトラフィックデータセットを生成するための制御された知識データエンジンとして機能するかどうかを検討する。
本稿では,プロトコル文書,アタックセマンティクス,および明示的な統計的ルールを組み合わせた手法を提案する。
その結果、明示的な制約の下では、LLM生成データセットは実際のネットワークトラフィックの統計的および構造的特性を正確に近似することができることがわかった。
- 参考スコア(独自算出の注目度): 0.4893345190925178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Realistic, large-scale, and well-labeled cybersecurity datasets are essential for training and evaluating Intrusion Detection Systems (IDS). However, they remain difficult to obtain due to privacy constraints, data sensitivity, and the cost of building controlled collection environments such as testbeds and cyber ranges. This paper investigates whether Large Language Models (LLMs) can operate as controlled knowledge-to-data engines for generating structured synthetic network traffic datasets suitable for IDS research. We propose a methodology that combines protocol documentation, attack semantics, and explicit statistical rules to condition LLMs without fine-tuning or access to raw samples. Using the AWID3 IEEE~802.11 benchmark as a demanding case study, we generate labeled datasets with four state-of-the-art LLMs and assess fidelity through a multi-level validation framework including global similarity metrics, per-feature distribution testing, structural comparison, and cross-domain classification. Results show that, under explicit constraints, LLM-generated datasets can closely approximate the statistical and structural characteristics of real network traffic, enabling gradient-boosting classifiers to achieve F1-scores up to 0.956 when evaluated on real samples. Overall, the findings suggest that constrained LLM-driven generation can facilitate on-demand IDS experimentation, providing a testbed-free, privacy-preserving alternative that overcomes the traditional bottlenecks of physical traffic collection and manual labeling.
- Abstract(参考訳): リアルで大規模で、十分にラベル付けされたサイバーセキュリティデータセットは、侵入検知システム(IDS)のトレーニングと評価に不可欠である。
しかし、プライバシの制約、データの感度、テストベッドやサイバーレンジのような制御された収集環境を構築するコストのため、入手は困難である。
本稿では,大規模言語モデル(LLM)が,IDS研究に適した構造化合成ネットワークトラフィックデータセットを生成するための制御された知識データエンジンとして機能するかどうかを検討する。
本稿では,プロトコル文書,アタックセマンティクス,および明示的な統計的ルールを組み合わせた手法を提案する。
AWID3 IEEE~802.11 ベンチマークを要求ケーススタディとして,4つの最先端 LLM を用いたラベル付きデータセットを生成し,グローバルな類似性メトリクス,機能ごとの分散テスト,構造比較,ドメイン間分類を含む多レベル検証フレームワークを通じて,忠実度を評価する。
その結果、明示的な制約下では、LLM生成データセットは実際のネットワークトラフィックの統計的および構造的特性を正確に近似することができ、実際のサンプルで評価すると、勾配ブースト分類器がF1スコアを最大0.956まで達成できることがわかった。
全体として、LSMによる制約のある生成は、オンデマンドのIDS実験を容易にし、物理的なトラフィック収集と手動ラベリングの従来のボトルネックを克服する、テストベッドのない、プライバシ保護の代替手段を提供する。
関連論文リスト
- ConformalSAM: Unlocking the Potential of Foundational Segmentation Models in Semi-Supervised Semantic Segmentation with Conformal Prediction [57.930531826380836]
本研究は,未ラベル画像のアノテータとして画素レベルの視覚課題におけるラベル不足に,基礎的セグメンテーションモデルが対処できるかどうかを考察する。
ConformalSAMは,まず対象ドメインのラベル付きデータを用いて基礎モデルを校正し,ラベルなしデータの信頼できないピクセルラベルをフィルタリングする新しいSSSSフレームワークである。
論文 参考訳(メタデータ) (2025-07-21T17:02:57Z) - Private Training & Data Generation by Clustering Embeddings [74.00687214400021]
差分プライバシー(DP)は、個々のデータを保護するための堅牢なフレームワークを提供する。
本稿では,DP合成画像埋め込み生成のための新しい原理的手法を提案する。
経験的に、合成的に生成された埋め込みに基づいて訓練された単純な2層ニューラルネットワークは、最先端(SOTA)分類の精度を達成する。
論文 参考訳(メタデータ) (2025-06-20T00:17:14Z) - Data-efficient Meta-models for Evaluation of Context-based Questions and Answers in LLMs [1.6332728502735252]
大規模言語モデル(LLM)とレトリーバル拡張生成(RAG)システムは、産業アプリケーションにますます多くデプロイされている。
その信頼性は、幻覚検出の課題によって妨げられている。
本稿では,データアノテーションのボトルネックを,トレーニングデータ要件の低減の可能性を検討することによって解決する。
論文 参考訳(メタデータ) (2025-05-29T09:50:56Z) - LEMUR Neural Network Dataset: Towards Seamless AutoML [35.57280723615144]
我々は、PyTorchベースのニューラルネットワークの大規模なコレクションを提供するオープンソースのデータセットとフレームワークであるLEMURを紹介する。
各モデルは統一されたテンプレートに従い、構成と結果が構造化データベースに格納され、一貫性が保証される。
LEMURはAutoMLの研究を加速し、公正なベンチマークを可能にし、大規模ニューラルネットワーク研究の障壁を減らすことを目的としている。
論文 参考訳(メタデータ) (2025-04-14T09:08:00Z) - Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods [56.073335779595475]
本稿ではReCaLL(Relative Conditional Log-Likelihood)を提案する。
実験の結果,非メンバープレフィックスの条件付きメンバーデータは,非メンバーデータと比較してログライクな傾向が著しく低下することがわかった。
我々は総合的な実験を行い、ReCaLLがWikiMIAデータセット上で最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-06-23T00:23:13Z) - Novel Approach to Intrusion Detection: Introducing GAN-MSCNN-BILSTM with LIME Predictions [0.0]
本稿では、GAN(Generative Adversarial Networks)、MSCNN(Multi-Scale Convolutional Neural Networks)、Bidirectional Long Short-Term Memory(BiLSTM)を利用した革新的な侵入検知システムを提案する。
このシステムは、通常のパターンと攻撃パターンの両方を含む、現実的なネットワークトラフィックデータを生成する。
標準ベンチマークであるHogzillaデータセットの評価では、多クラス分類では99.16%、バイナリ分類では99.10%という印象的な精度を示している。
論文 参考訳(メタデータ) (2024-06-08T11:26:44Z) - Empowering HWNs with Efficient Data Labeling: A Clustered Federated
Semi-Supervised Learning Approach [2.046985601687158]
CFL(Clustered Federated Multitask Learning)は,統計的課題を克服するための効果的な戦略として注目されている。
本稿では,より現実的なHWNシナリオ用に設計された新しいフレームワークであるClustered Federated Semi-Supervised Learning (CFSL)を紹介する。
その結果,ラベル付きデータとラベル付きデータの比率が異なる場合,CFSLはテスト精度,ラベル付け精度,ラベル付け遅延などの重要な指標を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-01-19T11:47:49Z) - Synthetic flow-based cryptomining attack generation through Generative
Adversarial Networks [1.2575897140677708]
マシンラーニングコンポーネントのパフォーマンス向上には,フローベースのデータセットが不可欠だ。
データプライバシは,このようなネットワークデータを処理する上で,強い要件としてますます現れています。
本稿では,GANが生成する合成データの質を測定するための新しい決定論的手法を提案する。
論文 参考訳(メタデータ) (2021-07-30T17:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。