論文の概要: Contrastive Learning and Data Augmentation in Traffic Classification
Using a Flowpic Input Representation
- arxiv url: http://arxiv.org/abs/2309.09733v1
- Date: Mon, 18 Sep 2023 12:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 13:32:22.303108
- Title: Contrastive Learning and Data Augmentation in Traffic Classification
Using a Flowpic Input Representation
- Title(参考訳): flowpic 入力表現を用いた交通分類におけるコントラスト学習とデータ拡張
- Authors: Alessandro Finamore, Chao Wang, Jonatan Krolikowski, Jose M. Navarro,
Fuxing Chen, Dario Rossi
- Abstract要約: 同じデータセット上で[17]を再現し、3つの追加の公開データセット上で最も健全なアスペクト(データ拡張の重要性)を複製します。
元の結果のほとんどを確認できたが、元のデータセットにデータシフトがあったため、調査されたシナリオの20%の精度低下が判明した。
- 参考スコア(独自算出の注目度): 47.95762911696397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the last years we witnessed a renewed interest towards Traffic
Classification (TC) captivated by the rise of Deep Learning (DL). Yet, the vast
majority of TC literature lacks code artifacts, performance assessments across
datasets and reference comparisons against Machine Learning (ML) methods. Among
those works, a recent study from IMC'22 [17] is worth of attention since it
adopts recent DL methodologies (namely, few-shot learning, self-supervision via
contrastive learning and data augmentation) appealing for networking as they
enable to learn from a few samples and transfer across datasets. The main
result of [17] on the UCDAVIS19, ISCX-VPN and ISCX-Tor datasets is that, with
such DL methodologies, 100 input samples are enough to achieve very high
accuracy using an input representation called "flowpic" (i.e., a per-flow 2d
histograms of the packets size evolution over time). In this paper (i) we
reproduce [17] on the same datasets and (ii) we replicate its most salient
aspect (the importance of data augmentation) on three additional public
datasets, MIRAGE-19, MIRAGE-22 and UTMOBILENET21. While we confirm most of the
original results, we also found a 20% accuracy drop on some of the investigated
scenarios due to a data shift in the original dataset that we uncovered.
Additionally, our study validates that the data augmentation strategies studied
in [17] perform well on other datasets too. In the spirit of reproducibility
and replicability we make all artifacts (code and data) available at [10].
- Abstract(参考訳): 過去数年間、私たちは、ディープラーニング(dl)の台頭に魅了されたトラフィック分類(tc)に対する新たな関心を目の当たりにした。
しかし、TCの文献の大部分は、コードアーティファクト、データセット間のパフォーマンス評価、機械学習(ML)メソッドに対する参照比較を欠いている。
IMC'22 [17]の最近の研究は、いくつかのサンプルから学び、データセット間での転送を可能にするネットワークに訴える最近のDL方法論(すなわち、対照的な学習とデータ拡張による自己監督)を採用するので、注目に値する。
UCDAVIS19, ISCX-VPN, ISCX-Torデータセットの [17] の主な結果は、そのようなDL手法により、100個の入力サンプルが「フローピック」と呼ばれる入力表現を用いて非常に高い精度を達成することができることである。
この論文では
i)同じデータセット上で[17]を再生し、
(II) MIRAGE-19, MIRAGE-22, UTMOBILENET21という3つの追加の公開データセット上で、最も健全な側面(データ拡張の重要性)を再現する。
元の結果の大部分は確認していますが、調査したシナリオの20%の精度低下は、私たちが発見した元のデータセットのデータシフトによるものです。
さらに, [17] で研究したデータ拡張戦略が,他のデータセットでもうまく機能することを検証した。
再現性と複製性の精神では、すべてのアーティファクト(コードとデータ)を[10]で利用できます。
関連論文リスト
- [Re] Network Deconvolution [3.2149341556907256]
ネットワークデコンボリューション(Network Deconvolution)" は、各層にデータが供給される前にピクセルワイドおよびチャネルワイドの相関を取り除くために使用される。
原論文の表1と表2で報告された結果の再現に成功した。
論文 参考訳(メタデータ) (2024-10-02T02:48:13Z) - DiffusionEngine: Diffusion Model is Scalable Data Engine for Object
Detection [41.436817746749384]
Diffusion Modelはオブジェクト検出のためのスケーラブルなデータエンジンである。
DiffusionEngine(DE)は、高品質な検出指向のトレーニングペアを単一のステージで提供する。
論文 参考訳(メタデータ) (2023-09-07T17:55:01Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - DataComp: In search of the next generation of multimodal datasets [179.79323076587255]
DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。
我々のベンチマークは、複数の計算スケールから成っている。
特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
論文 参考訳(メタデータ) (2023-04-27T11:37:18Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - A Close Look at Deep Learning with Small Data [0.0]
モデル複雑性は、クラス毎に数個のサンプルしか利用できない場合に重要な要素であることを示す。
また、標準的なデータ拡張であっても、認識性能を大きなマージンで向上させることができることを示す。
論文 参考訳(メタデータ) (2020-03-28T17:11:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。