論文の概要: In Search of netUnicorn: A Data-Collection Platform to Develop
Generalizable ML Models for Network Security Problems
- arxiv url: http://arxiv.org/abs/2306.08853v1
- Date: Thu, 15 Jun 2023 04:42:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 16:33:12.632487
- Title: In Search of netUnicorn: A Data-Collection Platform to Develop
Generalizable ML Models for Network Security Problems
- Title(参考訳): netUnicornの検索:ネットワークセキュリティ問題のための汎用MLモデルを開発するデータ収集プラットフォーム
- Authors: Roman Beltiukov, Wenbo Guo, Arpit Gupta, Walter Willinger
- Abstract要約: 我々は、古典的な「時間ガラス」モデルからインスピレーションを得て、その「薄腰」として実装されるデータ収集プラットフォームであるnetUnicornを開発した。
我々は、NetUnicornが複数のネットワーク環境から異なる学習問題に対するデータ収集をいかに単純化するかを実証する。
- 参考スコア(独自算出の注目度): 6.61700198904632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The remarkable success of the use of machine learning-based solutions for
network security problems has been impeded by the developed ML models'
inability to maintain efficacy when used in different network environments
exhibiting different network behaviors. This issue is commonly referred to as
the generalizability problem of ML models. The community has recognized the
critical role that training datasets play in this context and has developed
various techniques to improve dataset curation to overcome this problem.
Unfortunately, these methods are generally ill-suited or even counterproductive
in the network security domain, where they often result in unrealistic or
poor-quality datasets.
To address this issue, we propose an augmented ML pipeline that leverages
explainable ML tools to guide the network data collection in an iterative
fashion. To ensure the data's realism and quality, we require that the new
datasets should be endogenously collected in this iterative process, thus
advocating for a gradual removal of data-related problems to improve model
generalizability. To realize this capability, we develop a data-collection
platform, netUnicorn, that takes inspiration from the classic "hourglass" model
and is implemented as its "thin waist" to simplify data collection for
different learning problems from diverse network environments. The proposed
system decouples data-collection intents from the deployment mechanisms and
disaggregates these high-level intents into smaller reusable, self-contained
tasks.
We demonstrate how netUnicorn simplifies collecting data for different
learning problems from multiple network environments and how the proposed
iterative data collection improves a model's generalizability.
- Abstract(参考訳): ネットワークセキュリティ問題に対する機械学習ベースのソリューションの使用による顕著な成功は、異なるネットワーク環境で異なるネットワーク動作を示す場合の有効性を維持できないMLモデルの開発によって妨げられている。
この問題は一般にMLモデルの一般化可能性問題と呼ばれる。
コミュニティはこの文脈でデータセットのトレーニングが果たす重要な役割を認識し、この問題を克服するためにデータセットのキュレーションを改善する様々な技術を開発した。
残念なことに、これらの手法は一般的にネットワークセキュリティ領域では不適当か、あるいは非生産的である。
この問題に対処するために,説明可能なMLツールを活用して,ネットワークデータ収集を反復的にガイドする拡張MLパイプラインを提案する。
データのリアリズムと品質を保証するため、この反復プロセスで新たなデータセットを内在的に収集する必要があるため、モデルの一般化性を改善するために、データ関連の問題を徐々に取り除くことを提唱します。
この能力を実現するために,従来の「時間ガラス」モデルから着想を得たデータ収集プラットフォームであるnetUnicornを開発し,その「薄腰」として実装し,多様なネットワーク環境から異なる学習問題に対するデータ収集を容易にする。
提案システムは,データ収集意図を配置機構から切り離し,高レベルの意図を再利用性,自己完結型タスクに分解する。
我々は、NetUnicornが複数のネットワーク環境から異なる学習問題に対するデータ収集を単純化し、提案した反復データ収集がモデルの一般化可能性をどのように改善するかを示す。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Few-Shot Class-Incremental Learning with Non-IID Decentralized Data [12.472285188772544]
スケーラブルで適応的なインテリジェントなシステムを開発するには、クラスインクリメンタルな学習が不可欠だ。
本稿では、分散機械学習パラダイムであるフェデレートされた数発のクラスインクリメンタルラーニングを紹介する。
本稿では,リプレイバッファデータを利用して既存の知識を維持し,新たな知識の獲得を促進する合成データ駆動フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-18T02:48:36Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Designing Data: Proactive Data Collection and Iteration for Machine
Learning [12.295169687537395]
データ収集の多様性の欠如は、機械学習(ML)アプリケーションに重大な障害を引き起こしている。
データセットが実世界の変動性を反映しているかどうかを評価するためには、データ収集、イテレーション、モデルのトレーニングを追跡および管理する新しい方法が必要である。
論文 参考訳(メタデータ) (2023-01-24T21:40:29Z) - Deep invariant networks with differentiable augmentation layers [87.22033101185201]
データ拡張ポリシーの学習方法は、保持データを必要とし、二段階最適化の問題に基づいている。
我々のアプローチは、現代の自動データ拡張技術よりも訓練が簡単で高速であることを示す。
論文 参考訳(メタデータ) (2022-02-04T14:12:31Z) - Aggregation Delayed Federated Learning [20.973999078271483]
フェデレーション学習(Federated Learning)は、複数のデータ所有者(クライアント)が、自身のデバイスにデータを保持しながら、ひとつのマシンラーニングモデルを協調的にトレーニングする分散機械学習パラダイムである。
非IIDデータ上では、FedAvgのような標準フェデレーションアルゴリズムによる性能低下が報告されている。
非IIDデータを扱うための多くの既存の作業は、FedAvgと同じ集約フレームワークを採用し、サーバ側またはクライアントでモデル更新を改善することに重点を置いている。
本研究では, 集約を遅らせる再分配ラウンドを導入することで, この課題に取り組み, 複数タスクの実験を行い, 提案したフレームワークが非IIDの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-08-17T04:06:10Z) - Anomaly Detection on Attributed Networks via Contrastive Self-Supervised
Learning [50.24174211654775]
本論文では,アトリビュートネットワーク上の異常検出のためのコントラスト型自己監視学習フレームワークを提案する。
このフレームワークは、新しいタイプのコントラストインスタンスペアをサンプリングすることで、ネットワークデータからのローカル情報を完全に活用します。
高次元特性と局所構造から情報埋め込みを学習するグラフニューラルネットワークに基づくコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2021-02-27T03:17:20Z) - MAIN: Multihead-Attention Imputation Networks [4.427447378048202]
本稿では,任意のモデルに適用可能なマルチヘッドアテンションに基づく新しいメカニズムを提案する。
提案手法は、下流タスクの性能を向上させるために、入力データの欠落パターンを誘導的にモデル化する。
論文 参考訳(メタデータ) (2021-02-10T13:50:02Z) - An Empirical Analysis of Backward Compatibility in Machine Learning
Systems [47.04803977692586]
MLモデルの改善を目的としたアップデートでは,下流システムやユーザに大きな影響を及ぼす可能性のある,新たなエラーが発生する可能性がある。
例えば、画像認識などのクラウドベースの分類サービスで使用されるモデルの更新は、予期しない誤った振る舞いを引き起こす可能性がある。
論文 参考訳(メタデータ) (2020-08-11T08:10:58Z) - On Robustness and Transferability of Convolutional Neural Networks [147.71743081671508]
現代の深層畳み込みネットワーク(CNN)は、分散シフトの下で一般化しないとしてしばしば批判される。
現代画像分類CNNにおける分布外と転送性能の相互作用を初めて検討した。
トレーニングセットとモデルサイズを増大させることで、分散シフトロバスト性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-16T18:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。