論文の概要: Sampling Streaming Data with Parallel Vector Quantization -- PVQ
- arxiv url: http://arxiv.org/abs/2210.01792v1
- Date: Tue, 4 Oct 2022 17:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 15:44:36.663309
- Title: Sampling Streaming Data with Parallel Vector Quantization -- PVQ
- Title(参考訳): 並列ベクトル量子化によるストリーミングデータのサンプリング -- PVQ
- Authors: Mujahid Sultan
- Abstract要約: 本稿では,データストリームのクラス不均衡を大幅に低減するベクトル量子化に基づくサンプリング手法を提案する。
並列処理、バッチ処理、ランダムにサンプルを選択するモデルを構築しました。
本手法により,データストリームの事前処理により,分類モデルの精度が向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accumulation of corporate data in the cloud has attracted more enterprise
applications to the cloud creating data gravity. As a consequence, network
traffic has become more cloud centric. This increase in cloud centric traffic
poses new challenges in designing learning systems for streaming data due to
class imbalance. The number of classes plays a vital role in the accuracy of
the classifiers built from the data streams. In this paper, we present a vector
quantization-based sampling method, which substantially reduces the class
imbalance in data streams. We demonstrate its effectiveness by conducting
experiments on network traffic and anomaly dataset with commonly used ML model
building methods; Multilayered Perceptron on TensorFlow backend, Support Vector
Machines, K-Nearest Neighbour, and Random Forests. We built models using
parallel processing, batch processing, and randomly selecting samples. We show
that the accuracy of classification models improves when the data streams are
pre-processed with our method. We used out of the box hyper-parameters of these
classifiers and auto sklearn for hyperparameter optimization.
- Abstract(参考訳): 企業データのクラウドへの蓄積は、より多くのエンタープライズアプリケーションをクラウドに惹きつけ、データ重力を生み出している。
その結果、ネットワークトラフィックはよりクラウド中心になっている。
このクラウド中心トラフィックの増加は、クラス不均衡によるストリーミングデータの学習システムを設計する上で、新たな課題をもたらす。
クラスの数は、データストリームから構築された分類器の精度において重要な役割を果たす。
本稿では,データストリームのクラス不均衡を大幅に低減するベクトル量子化に基づくサンプリング手法を提案する。
tensorflowバックエンド上の多層パーセプトロン、サポートベクターマシン、k-nearest近傍、ランダムフォレストなど、一般的なmlモデル構築手法を用いてネットワークトラフィックと異常データセットの実験を行い、その効果を実証する。
並列処理、バッチ処理、ランダムにサンプルを選択するモデルを構築しました。
本手法により,データストリームの事前処理により,分類モデルの精度が向上することを示す。
我々はこれらの分類器のハイパーパラメータを外し、オートスクリルをハイパーパラメータ最適化に使用した。
関連論文リスト
- Diffusion-based Neural Network Weights Generation [85.6725307453325]
データセット条件付き事前学習重み抽出による効率よく適応的な伝達学習手法を提案する。
具体的には、ニューラルネットワークの重みを再構築できる変分オートエンコーダを備えた潜時拡散モデルを用いる。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Test-Time Adaptation for Point Cloud Upsampling Using Meta-Learning [17.980649681325406]
本稿では,点群アップサンプリングのモデル一般性を高めるためのテスト時間適応手法を提案する。
提案手法はメタラーニングを利用してテスト時間適応のためのネットワークパラメータを明示的に学習する。
我々のフレームワークは汎用的であり、既存のバックボーンネットワークをポイントクラウドのアップサンプリングにプラグイン・アンド・プレイで適用することができる。
論文 参考訳(メタデータ) (2023-08-31T06:44:59Z) - Continual Learning with Optimal Transport based Mixture Model [17.398605698033656]
成熟最適輸送理論(OT-MM)の優れた性質に基づくオンライン混合モデル学習手法を提案する。
提案手法は,現在の最先端のベースラインを大きく上回ることができる。
論文 参考訳(メタデータ) (2022-11-30T06:40:29Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - AutoFlow: Learning a Better Training Set for Optical Flow [62.40293188964933]
AutoFlowは、光学フローのトレーニングデータをレンダリングする手法である。
AutoFlowはPWC-NetとRAFTの両方の事前トレーニングにおいて最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-04-29T17:55:23Z) - Lambda Learner: Fast Incremental Learning on Data Streams [5.543723668681475]
本稿では,データストリームからのミニバッチに対するインクリメンタル更新によるモデルトレーニングのための新しいフレームワークを提案する。
提案するフレームワークのモデルでは,オフラインデータに基づいてトレーニングされた周期的に更新されたモデルを推定し,モデル更新が時間に敏感な場合,性能が向上することを示す。
我々は、大規模ソーシャルネットワークのためのスポンサー付きコンテンツプラットフォームに大規模な展開を提示する。
論文 参考訳(メタデータ) (2020-10-11T04:00:34Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。