論文の概要: Improved Flow Recovery from Packet Data
- arxiv url: http://arxiv.org/abs/2310.09834v1
- Date: Sun, 15 Oct 2023 13:36:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 02:23:27.324942
- Title: Improved Flow Recovery from Packet Data
- Title(参考訳): パケットデータからのフローリカバリの改善
- Authors: Anthony Kenyon, David Elizondo, Lipika Deka,
- Abstract要約: 本稿では,パケットデータからフローレコードや要約メタデータを高精度かつ堅牢に抽出する方法に焦点を当てる。
このデータは、機械学習とサイバー脅威検出技術のためのトレーニングデータとして有用である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Typical event datasets such as those used in network intrusion detection comprise hundreds of thousands, sometimes millions, of discrete packet events. These datasets tend to be high dimensional, stateful, and time-series in nature, holding complex local and temporal feature associations. Packet data can be abstracted into lower dimensional summary data, such as packet flow records, where some of the temporal complexities of packet data can be mitigated, and smaller well-engineered feature subsets can be created. This data can be invaluable as training data for machine learning and cyber threat detection techniques. Data can be collected in real-time, or from historical packet trace archives. In this paper we focus on how flow records and summary metadata can be extracted from packet data with high accuracy and robustness. We identify limitations in current methods, how they may impact datasets, and how these flaws may impact learning models. Finally, we propose methods to improve the state of the art and introduce proof of concept tools to support this work.
- Abstract(参考訳): ネットワーク侵入検出で使用されるような典型的なイベントデータセットは、数十万、時には数百万の離散パケットイベントで構成されている。
これらのデータセットは、自然界において高次元、ステートフル、タイムシリーズであり、複雑な局所的および時間的特徴関連を持つ傾向がある。
パケットデータは、パケットフローレコードのような低次元の要約データに抽象化することができ、パケットデータの時間的複雑さの一部を緩和でき、より少ない技術による特徴サブセットを作成することができる。
このデータは、機械学習とサイバー脅威検出技術のためのトレーニングデータとして有用である。
データはリアルタイムで、または過去のパケットトレースアーカイブから収集することができる。
本稿では,パケットデータからフローレコードと要約メタデータを高精度かつ堅牢に抽出する方法に焦点を当てる。
私たちは、現在のメソッドの制限、それらがデータセットに与える影響、そしてこれらの欠陥が学習モデルにどのように影響するかを特定します。
最後に,現状改善のための手法を提案し,本研究を支援するための概念実証ツールを提案する。
関連論文リスト
- A Language Model-Guided Framework for Mining Time Series with Distributional Shifts [5.082311792764403]
本稿では,大規模言語モデルとデータソースインタフェースを用いて時系列データセットを探索・収集する手法を提案する。
収集したデータは外部ソースから得られるが、一次時系列データセットと重要な統計特性を共有できる。
収集されたデータセットは、既存のデータセット、特にデータ分散の変化を効果的に補うことができることを示唆している。
論文 参考訳(メタデータ) (2024-06-07T20:21:07Z) - Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Development of a Neural Network-based Method for Improved Imputation of
Missing Values in Time Series Data by Repurposing DataWig [1.8719295298860394]
時系列データの欠落は頻繁に発生し、成功した分析に障害を与える。
時系列データの堅牢な計算のために様々な手法が試みられているが、最も先進的な手法でさえもまだ課題に直面している。
大規模なデータセットを処理する能力を持つニューラルネットワークベースの方法であるDataWigを修正して、tsDataWig(時系列データウィグ)を開発しました。
元のDataWigとは異なり、tsDataWigは時間変数の値を直接処理し、複雑な時間で欠落した値をインプットする。
論文 参考訳(メタデータ) (2023-08-18T15:53:40Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - Virtual passengers for real car solutions: synthetic datasets [2.1028463367241033]
私たちは3Dシナリオを構築し、可能な限り現実に近いようにセットアップします。
シーンにランダム性を加えるためにパラメータの設定と変更が可能である。
本稿では,自動車環境における合成データ生成のプロセスと概念について述べる。
論文 参考訳(メタデータ) (2022-05-13T10:54:39Z) - Uniform-in-Phase-Space Data Selection with Iterative Normalizing Flows [0.0]
データの位相空間を均一に分散するようにデータポイントを選択する戦略が提案されている。
データセットの小さなサブセットのみを使用して確率マップを構築する場合、レアデータポイントの確率を正確に推定するために反復法が用いられる。
提案フレームワークは、豊富なデータが利用可能であれば、データ効率のよい機械学習を可能にするための実行可能な経路として実証されている。
論文 参考訳(メタデータ) (2021-12-28T20:06:28Z) - Robust Event Classification Using Imperfect Real-world PMU Data [58.26737360525643]
本研究では,不完全な実世界のファサー計測単位(PMU)データを用いて,ロバストな事象分類について検討する。
我々は、堅牢なイベント分類器を訓練するための新しい機械学習フレームワークを開発する。
論文 参考訳(メタデータ) (2021-10-19T17:41:43Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。