論文の概要: Low-Quality Training Data Only? A Robust Framework for Detecting Encrypted Malicious Network Traffic
- arxiv url: http://arxiv.org/abs/2309.04798v1
- Date: Sat, 9 Sep 2023 13:49:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 16:20:50.022829
- Title: Low-Quality Training Data Only? A Robust Framework for Detecting Encrypted Malicious Network Traffic
- Title(参考訳): 低品質トレーニングデータのみ?暗号化された悪意ネットワークトラフィックを検出するロバストフレームワーク
- Authors: Yuqi Qing, Qilei Yin, Xinhao Deng, Yihao Chen, Zhuotao Liu, Kun Sun, Ke Xu, Jia Zhang, Qi Li,
- Abstract要約: 機械学習モデルが低品質のトレーニングデータでトレーニングされると、パフォーマンスが低下する。
特徴空間における正常なトラフィックと悪意のあるトラフィックの分布を完全に活用するRAPIERを開発した。
RAPIERは、暗号化された悪意のあるトラフィック検出を、最高のF1スコアである0.773で効果的に達成し、既存のメソッドのF1スコアを平均272.5%改善する。
- 参考スコア(独自算出の注目度): 19.636282208765547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) is promising in accurately detecting malicious flows in encrypted network traffic; however, it is challenging to collect a training dataset that contains a sufficient amount of encrypted malicious data with correct labels. When ML models are trained with low-quality training data, they suffer degraded performance. In this paper, we aim at addressing a real-world low-quality training dataset problem, namely, detecting encrypted malicious traffic generated by continuously evolving malware. We develop RAPIER that fully utilizes different distributions of normal and malicious traffic data in the feature space, where normal data is tightly distributed in a certain area and the malicious data is scattered over the entire feature space to augment training data for model training. RAPIER includes two pre-processing modules to convert traffic into feature vectors and correct label noises. We evaluate our system on two public datasets and one combined dataset. With 1000 samples and 45% noises from each dataset, our system achieves the F1 scores of 0.770, 0.776, and 0.855, respectively, achieving average improvements of 352.6%, 284.3%, and 214.9% over the existing methods, respectively. Furthermore, We evaluate RAPIER with a real-world dataset obtained from a security enterprise. RAPIER effectively achieves encrypted malicious traffic detection with the best F1 score of 0.773 and improves the F1 score of existing methods by an average of 272.5%.
- Abstract(参考訳): 機械学習(ML)は、暗号化されたネットワークトラフィック内の悪意あるフローを正確に検出することを約束している。
MLモデルが低品質のトレーニングデータでトレーニングされると、パフォーマンスが低下する。
本稿では,連続的に進化するマルウェアによって生成される暗号化された悪意のあるトラフィックを検知する,現実世界の低品質なトレーニングデータセット問題に対処することを目的とする。
RAPIERは,特定の領域に正規データを密に分散し,特定の領域全体に悪意データを散布し,モデルトレーニングのためのトレーニングデータを増強する機能空間において,正規および悪意のあるトラフィックデータの分散を十分に活用する。
RAPIERには2つの前処理モジュールがあり、トラフィックを特徴ベクトルに変換し、ラベルノイズを正す。
2つの公開データセットと1つの組み合わせデータセットでシステムを評価する。
各データセットから1000個のサンプルと45%のノイズが得られた結果、F1スコアはそれぞれ0.770、0.776、0.855となり、それぞれ352.6%、284.3%、および214.9%の改善が達成された。
さらに,セキュリティ企業から得られた実世界のデータセットを用いてRAPIERを評価する。
RAPIERは、暗号化された悪意のあるトラフィック検出を、最高のF1スコアである0.773で効果的に達成し、既存のメソッドのF1スコアを平均272.5%改善する。
関連論文リスト
- Decorrelating Structure via Adapters Makes Ensemble Learning Practical for Semi-supervised Learning [50.868594148443215]
コンピュータビジョンでは、従来のアンサンブル学習法は訓練効率が低いか、限られた性能を示す。
本稿では,視覚的タスクに適応器を用いたDecorrelating Structure(DSA)による軽量,損失関数なし,アーキテクチャに依存しないアンサンブル学習を提案する。
論文 参考訳(メタデータ) (2024-08-08T01:31:38Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - FedCSD: A Federated Learning Based Approach for Code-Smell Detection [7.026278088747708]
本稿では,MLモデルの協調学習を可能にするフェデレートラーニングコードスメル検出手法を提案する。
3つの実験では、異なるコードの臭いのシナリオを検出し、調査することを目的とした、手動で検証された3つのデータセットを活用している。
98.34%の精度は、100回のトレーニングラウンドで10社でトレーニングされたグローバルモデルによって達成された。
論文 参考訳(メタデータ) (2023-05-31T09:51:45Z) - ET-BERT: A Contextualized Datagram Representation with Pre-training
Transformers for Encrypted Traffic Classification [9.180725486824118]
トランスフォーマー(ET-BERT)からの暗号化トラフィック双方向表現と呼ばれる新しいトラフィック表現モデルを提案する。
事前訓練されたモデルは、少数のタスク固有のラベル付きデータに基づいて微調整し、5つの暗号化されたトラフィック分類タスクで最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2022-02-13T14:54:48Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - A data-centric weak supervised learning for highway traffic incident
detection [1.0323063834827415]
我々は、高速道路における交通事故検出の誤報率を低減し、精度を向上させるために、データ中心のアプローチに焦点を当てる。
我々は,インシデントデータに対する高品質なトレーニングラベルを生成するために,基礎的真理ラベルを使わずに,弱教師付き学習ワークフローを開発する。
提案した弱教師付き学習ワークフローは,高い事故検出率 (0.90) と低い誤警報率 (0.08) を達成することを示す。
論文 参考訳(メタデータ) (2021-12-17T22:14:47Z) - Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D
Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。
そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:42:42Z) - What Stops Learning-based 3D Registration from Working in the Real
World? [53.68326201131434]
この研究は、3Dポイントのクラウド登録失敗の原因を特定し、その原因を分析し、解決策を提案する。
最終的に、これは最も実践的な3D登録ネットワーク(BPNet)に変換される。
我々のモデルは微調整をせずに実データに一般化し、商用センサで得られた見えない物体の点雲上で最大67%の精度に達する。
論文 参考訳(メタデータ) (2021-11-19T19:24:27Z) - Active Learning of Neural Collision Handler for Complex 3D Mesh
Deformations [68.0524382279567]
3次元変形メッシュにおける衝突の検出と処理を行う頑健な学習アルゴリズムを提案する。
提案手法は教師あり学習法より優れ, 精度は93.8-98.1%である。
論文 参考訳(メタデータ) (2021-10-08T04:08:31Z) - Modern Cybersecurity Solution using Supervised Machine Learning [0.456877715768796]
従来のファイアウォールと侵入検知システムは、設定されたルールにマッチしない新しい攻撃、ゼロデイ攻撃、トラフィックパターンの検出に失敗する。
我々はNetflowデータセットを用いて、データ分析を適用した後に特徴を抽出した。
我々の実験は、機械学習アルゴリズムがBotトラフィック、Malwareトラフィック、バックグラウンドトラフィックをいかに効率的に検出できるかに焦点を当てている。
論文 参考訳(メタデータ) (2021-09-15T22:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。