論文の概要: Contrastive Learning and Data Augmentation in Traffic Classification
Using a Flowpic Input Representation
- arxiv url: http://arxiv.org/abs/2309.09733v1
- Date: Mon, 18 Sep 2023 12:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 13:32:22.303108
- Title: Contrastive Learning and Data Augmentation in Traffic Classification
Using a Flowpic Input Representation
- Title(参考訳): flowpic 入力表現を用いた交通分類におけるコントラスト学習とデータ拡張
- Authors: Alessandro Finamore, Chao Wang, Jonatan Krolikowski, Jose M. Navarro,
Fuxing Chen, Dario Rossi
- Abstract要約: 同じデータセット上で[17]を再現し、3つの追加の公開データセット上で最も健全なアスペクト(データ拡張の重要性)を複製します。
元の結果のほとんどを確認できたが、元のデータセットにデータシフトがあったため、調査されたシナリオの20%の精度低下が判明した。
- 参考スコア(独自算出の注目度): 47.95762911696397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the last years we witnessed a renewed interest towards Traffic
Classification (TC) captivated by the rise of Deep Learning (DL). Yet, the vast
majority of TC literature lacks code artifacts, performance assessments across
datasets and reference comparisons against Machine Learning (ML) methods. Among
those works, a recent study from IMC'22 [17] is worth of attention since it
adopts recent DL methodologies (namely, few-shot learning, self-supervision via
contrastive learning and data augmentation) appealing for networking as they
enable to learn from a few samples and transfer across datasets. The main
result of [17] on the UCDAVIS19, ISCX-VPN and ISCX-Tor datasets is that, with
such DL methodologies, 100 input samples are enough to achieve very high
accuracy using an input representation called "flowpic" (i.e., a per-flow 2d
histograms of the packets size evolution over time). In this paper (i) we
reproduce [17] on the same datasets and (ii) we replicate its most salient
aspect (the importance of data augmentation) on three additional public
datasets, MIRAGE-19, MIRAGE-22 and UTMOBILENET21. While we confirm most of the
original results, we also found a 20% accuracy drop on some of the investigated
scenarios due to a data shift in the original dataset that we uncovered.
Additionally, our study validates that the data augmentation strategies studied
in [17] perform well on other datasets too. In the spirit of reproducibility
and replicability we make all artifacts (code and data) available at [10].
- Abstract(参考訳): 過去数年間、私たちは、ディープラーニング(dl)の台頭に魅了されたトラフィック分類(tc)に対する新たな関心を目の当たりにした。
しかし、TCの文献の大部分は、コードアーティファクト、データセット間のパフォーマンス評価、機械学習(ML)メソッドに対する参照比較を欠いている。
IMC'22 [17]の最近の研究は、いくつかのサンプルから学び、データセット間での転送を可能にするネットワークに訴える最近のDL方法論(すなわち、対照的な学習とデータ拡張による自己監督)を採用するので、注目に値する。
UCDAVIS19, ISCX-VPN, ISCX-Torデータセットの [17] の主な結果は、そのようなDL手法により、100個の入力サンプルが「フローピック」と呼ばれる入力表現を用いて非常に高い精度を達成することができることである。
この論文では
i)同じデータセット上で[17]を再生し、
(II) MIRAGE-19, MIRAGE-22, UTMOBILENET21という3つの追加の公開データセット上で、最も健全な側面(データ拡張の重要性)を再現する。
元の結果の大部分は確認していますが、調査したシナリオの20%の精度低下は、私たちが発見した元のデータセットのデータシフトによるものです。
さらに, [17] で研究したデータ拡張戦略が,他のデータセットでもうまく機能することを検証した。
再現性と複製性の精神では、すべてのアーティファクト(コードとデータ)を[10]で利用できます。
関連論文リスト
- Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Automatic Data Augmentation via Invariance-Constrained Learning [122.38374511885488]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z) - Dataset Distillation with Infinitely Wide Convolutional Networks [18.837952916998947]
分散カーネルをベースとしたメタラーニングフレームワークを用いて,データセット蒸留の最先端結果を実現する。
CIFAR-10画像分類タスクでは64%以上のテスト精度が得られた。
我々の現状は、MNIST、Fashion-MNIST、CIFAR-10、CIFAR-100、SVHNの他の多くの設定にも及んでいる。
論文 参考訳(メタデータ) (2021-07-27T18:31:42Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Deflating Dataset Bias Using Synthetic Data Augmentation [8.509201763744246]
自律走行車(AV)の視覚タスクの最先端の手法は、教師あり学習に依存している。
本研究の目的は,視覚タスクにおける実際のデータセットのギャップを埋めるために,ターゲットとなる合成データ拡張の利用を検討することである。
AVに実用的な3つの異なるコンピュータビジョンタスクに関する実証研究は、トレーニングミックスに合成データを持つことは、クロスデータセットの一般化性能を著しく向上させることを一貫して示している。
論文 参考訳(メタデータ) (2020-04-28T21:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。