論文の概要: Drift-Based Dataset Stability Benchmark
- arxiv url: http://arxiv.org/abs/2512.23762v1
- Date: Sun, 28 Dec 2025 22:02:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.14637
- Title: Drift-Based Dataset Stability Benchmark
- Title(参考訳): ドリフトベースデータセット安定性ベンチマーク
- Authors: Dominik Soukup, Richard Plný, Daniel Vašata, Tomáš Čejka,
- Abstract要約: 本稿では,データセットの安定性を評価する新しい手法と,データセットの比較に使用できるベンチマークワークフローを提案する。
この研究の利点はCESNET-TLS-Year22データセットで実証されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) represents an efficient and popular approach for network traffic classification. However, network traffic classification is a challenging domain, and trained models may degrade soon after deployment due to the obsolete datasets and quick evolution of computer networks as new or updated protocols appear. Moreover, significant change in the behavior of a traffic type (and, therefore, the underlying features representing the traffic) can produce a large and sudden performance drop of the deployed model, known as a data or concept drift. In most cases, complete retraining is performed, often without further investigation of root causes, as good dataset quality is assumed. However, this is not always the case and further investigation must be performed. This paper proposes a novel methodology to evaluate the stability of datasets and a benchmark workflow that can be used to compare datasets. The proposed framework is based on a concept drift detection method that also uses ML feature weights to boost the detection performance. The benefits of this work are demonstrated on CESNET-TLS-Year22 dataset. We provide the initial dataset stability benchmark that is used to describe dataset stability and weak points to identify the next steps for optimization. Lastly, using the proposed benchmarking methodology, we show the optimization impact on the created dataset variants.
- Abstract(参考訳): 機械学習(ML)は、ネットワークトラフィックの分類において効率的で一般的なアプローチである。
しかし、ネットワークトラフィックの分類は難しい領域であり、トレーニングされたモデルは、時代遅れのデータセットと、新しいプロトコルや更新されたプロトコルが現れるにつれて、コンピュータネットワークの急速な進化のために、デプロイ後すぐに劣化する可能性がある。
さらに、トラフィックタイプ(およびそれ故に、トラフィックを表す基盤となる特徴)の振る舞いの大幅な変化は、データやコンセプトドリフトとして知られる、デプロイされたモデルの大規模かつ突然のパフォーマンス低下を引き起こす可能性がある。
多くの場合、データセットの品質がよいと仮定されるため、根本原因のさらなる調査なしに完全な再訓練が行われる。
しかし、必ずしもそうではなく、さらなる調査をしなければならない。
本稿では,データセットの安定性を評価する新しい手法と,データセットの比較に使用できるベンチマークワークフローを提案する。
提案するフレームワークは,ML特徴量を用いて検出性能を向上させるコンセプトドリフト検出法に基づいている。
この研究の利点はCESNET-TLS-Year22データセットで実証されている。
我々は、データセットの安定性と弱点を記述し、最適化の次のステップを特定するために使われる初期データセット安定性ベンチマークを提供する。
最後に、提案手法を用いて、作成したデータセットの変種に対する最適化効果を示す。
関連論文リスト
- Estimating Time Series Foundation Model Transferability via In-Context Learning [74.65355820906355]
時系列基礎モデル(TSFM)は、大規模な事前訓練を通じて強力なゼロショット予測を提供する。
微調整は、公開データに制限のあるドメインのパフォーマンス向上に依然として不可欠である。
モデル選択をコンテキスト内学習問題として再キャストする転送可能性推定フレームワークであるTimeTicを紹介する。
論文 参考訳(メタデータ) (2025-09-28T07:07:13Z) - MAWIFlow Benchmark: Realistic Flow-Based Evaluation for Network Intrusion Detection [47.86433139298671]
本稿では,MAWILAB v1.1データセットから得られたフローベースベンチマークであるMAWIFlowを紹介する。
得られたデータセットは、2011年1月、2016年、2021年に太平洋横断のバックボーンのトラフィックから引き出された、時間的に異なるサンプルで構成されている。
決定木、ランダムフォレスト、XGBoost、ロジスティック回帰を含む伝統的な機械学習手法は、CNN-BiLSTMアーキテクチャに基づいたディープラーニングモデルと比較される。
論文 参考訳(メタデータ) (2025-06-20T14:51:35Z) - A Scalable Approach to Covariate and Concept Drift Management via Adaptive Data Segmentation [0.562479170374811]
多くの現実世界のアプリケーションでは、継続的機械学習(ML)システムは不可欠だが、データドリフトが困難である。
伝統的なドリフト適応法は典型的にはアンサンブル技術を用いてモデルを更新し、しばしばドリフトされた歴史データを破棄する。
ドリフトしたデータをモデルトレーニングプロセスに明示的に組み込むことは、モデルの精度と堅牢性を大幅に向上させる、と我々は主張する。
論文 参考訳(メタデータ) (2024-11-23T17:35:23Z) - SUDS: A Strategy for Unsupervised Drift Sampling [0.5437605013181142]
監視された機械学習は、データ分散が時間とともに変化するコンセプトドリフトに遭遇し、パフォーマンスが低下する。
本稿では,既存のドリフト検出アルゴリズムを用いて,同種サンプルを選択する新しい手法であるドリフトサンプリング戦略(SUDS)を提案する。
本研究は, 動的環境におけるラベル付きデータ利用の最適化におけるSUDSの有効性を示すものである。
論文 参考訳(メタデータ) (2024-11-05T10:55:29Z) - FUSED-Net: Detecting Traffic Signs with Limited Data [2.111102681327218]
本稿では,交通信号検出のための高速RCNN「FUSED-Net」を提案する。
従来のアプローチとは異なり、トレーニング中にすべてのパラメータを凍結しないようにし、限られたサンプルからFUSED-Netを学習できるようにします。
1ショット,3ショット,5ショット,10ショットのシナリオでそれぞれ2.4倍,2.2倍,1.5倍,1.3倍の改善を実現しています。
論文 参考訳(メタデータ) (2024-09-23T09:34:42Z) - Learn from the Learnt: Source-Free Active Domain Adaptation via Contrastive Sampling and Visual Persistence [60.37934652213881]
ドメイン適応(DA)は、ソースドメインから関連するターゲットドメインへの知識伝達を容易にする。
本稿では、ソースデータフリーなアクティブドメイン適応(SFADA)という実用的なDAパラダイムについて検討する。
本稿では,学習者学習(LFTL)というSFADAの新たなパラダイムを紹介し,学習した学習知識を事前学習モデルから活用し,余分なオーバーヘッドを伴わずにモデルを積極的に反復する。
論文 参考訳(メタデータ) (2024-07-26T17:51:58Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - AR-TTA: A Simple Method for Real-World Continual Test-Time Adaptation [1.4530711901349282]
本稿では,自律運転のためのデータセット,すなわちCLAD-CとShiFTを用いたテスト時間適応手法の検証を提案する。
現在のテスト時間適応手法は、ドメインシフトの様々な程度を効果的に扱うのに苦労している。
モデル安定性を高めるために、小さなメモリバッファを組み込むことで、確立された自己学習フレームワークを強化する。
論文 参考訳(メタデータ) (2023-09-18T19:34:23Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Tracking Performance of Online Stochastic Learners [57.14673504239551]
オンラインアルゴリズムは、大規模なバッチにデータを保存したり処理したりすることなく、リアルタイムで更新を計算できるため、大規模な学習環境で人気がある。
一定のステップサイズを使用すると、これらのアルゴリズムはデータやモデル特性などの問題パラメータのドリフトに適応し、適切な精度で最適解を追跡する能力を持つ。
定常仮定に基づく定常状態性能とランダムウォークモデルによるオンライン学習者の追跡性能の関連性を確立する。
論文 参考訳(メタデータ) (2020-04-04T14:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。