論文の概要: A Novel Resampling Technique for Imbalanced Dataset Optimization
- arxiv url: http://arxiv.org/abs/2012.15231v1
- Date: Wed, 30 Dec 2020 17:17:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 11:58:45.431878
- Title: A Novel Resampling Technique for Imbalanced Dataset Optimization
- Title(参考訳): 不均衡データセット最適化のための新しい再サンプリング手法
- Authors: Ivan Letteri, Antonio Di Cecco, Abeer Dyoub, Giuseppe Della Penna
- Abstract要約: まれなイベントの分類は、詐欺取引、マルウェアトラフィック分析、ネットワーク侵入検出など、多くのドメインで一般的な問題です。
我々は,クラス不均衡問題に対処する2種類の1-Nearest Neighbour (G1Nos)オーバーサンプリングアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 1.0323063834827415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the enormous amount of data, particular events of interest can still
be quite rare. Classification of rare events is a common problem in many
domains, such as fraudulent transactions, malware traffic analysis and network
intrusion detection. Many studies have been developed for malware detection
using machine learning approaches on various datasets, but as far as we know
only the MTA-KDD'19 dataset has the peculiarity of updating the representative
set of malicious traffic on a daily basis. This daily updating is the added
value of the dataset, but it translates into a potential due to the class
imbalance problem that the RRw-Optimized MTA-KDD'19 will occur. We capture
difficulties of class distribution in real datasets by considering four types
of minority class examples: safe, borderline, rare and outliers. In this work,
we developed two versions of Generative Silhouette Resampling 1-Nearest
Neighbour (G1Nos) oversampling algorithms for dealing with class imbalance
problem. The first module of G1Nos algorithms performs a coefficient-based
instance selection silhouette identifying the critical threshold of Imbalance
Degree. (ID), the second module generates synthetic samples using a SMOTE-like
oversampling algorithm. The balancing of the classes is done by our G1Nos
algorithms to re-establish the proportions between the two classes of the used
dataset. The experimental results show that our oversampling algorithm work
better than the other two SOTA methodologies in all the metrics considered.
- Abstract(参考訳): 膨大な量のデータにもかかわらず、特定の関心のある出来事は依然として極めて稀である。
まれな事象の分類は、不正取引、マルウェアのトラフィック分析、ネットワーク侵入検出など、多くのドメインで一般的な問題である。
さまざまなデータセットに対する機械学習アプローチを用いたマルウェア検出のための多くの研究が開発されているが、MTA-KDD'19データセットのみが、日々の悪意のあるトラフィックの代表セットを更新する特質を持っている。
この日次更新はデータセットの追加値であるが、rrw最適化mta-kdd'19のクラス不均衡問題のために潜在的な可能性がある。
実際のデータセットにおけるクラス分散の難しさを,safe,borderline,realy,outlierの4種類のマイノリティクラス例から把握する。
本研究では,クラス不均衡問題に対する1-Nearest Neighbour(G1Nos)オーバーサンプリングアルゴリズムの2つのバージョンを開発した。
G1Nosアルゴリズムの最初のモジュールは、Im Balance Degreeの臨界しきい値を特定する係数ベースのインスタンス選択シルエットを実行する。
(ID)2番目のモジュールはSMOTEライクなオーバーサンプリングアルゴリズムを用いて合成サンプルを生成する。
クラスのバランシングは、使用済みデータセットの2つのクラス間の比率を再確立するために、G1Nosアルゴリズムによって行われます。
実験結果から, オーバーサンプリングアルゴリズムは他の2つのSOTA手法よりも有効であることがわかった。
関連論文リスト
- Learning Mixtures of Linear Dynamical Systems [94.49754087817931]
そこで我々は,2段階のメタアルゴリズムを開発し,各基底構造LPSモデルを誤り$tildeO(sqrtd/T)$.sqrtd/T)まで効率的に復元する。
提案手法の有効性を検証し,数値実験による理論的研究を検証する。
論文 参考訳(メタデータ) (2022-01-26T22:26:01Z) - Multi-granularity Relabeled Under-sampling Algorithm for Imbalanced Data [15.030895782548576]
不均衡な分類問題は、データマイニングと機械学習において重要かつ困難な問題の1つであることが判明した。
Tomek-Linkサンプリングアルゴリズムは、データ上のクラスオーバーラップを効果的に低減し、識別が難しい多数インスタンスを除去し、アルゴリズムの分類精度を向上させる。
しかし、Tomek-Linksアンダーサンプリングアルゴリズムは、世界中に最も近い隣り合う境界インスタンスのみを考慮し、潜在的に局所的な重複するインスタンスを無視している。
本稿では,データセットの局所的情報を完全に考慮した多粒度アンダーサンプリングアルゴリズム(MGRU)を提案する。
論文 参考訳(メタデータ) (2022-01-11T14:07:55Z) - Adaptive Memory Networks with Self-supervised Learning for Unsupervised
Anomaly Detection [54.76993389109327]
教師なし異常検出は、通常のデータのみをトレーニングすることで、目に見えない異常を検出するモデルを構築することを目的としている。
本稿では,これらの課題に対処するために,自己教師付き学習(AMSL)を用いた適応記憶ネットワーク(Adaptive Memory Network)を提案する。
AMSLには、一般的な正規パターンを学ぶための自己教師付き学習モジュールと、リッチな特徴表現を学ぶための適応型メモリ融合モジュールが組み込まれている。
論文 参考訳(メタデータ) (2022-01-03T03:40:21Z) - Solving the Class Imbalance Problem Using a Counterfactual Method for
Data Augmentation [4.454557728745761]
クラス不均衡データセットからの学習は、機械学習アルゴリズムに課題をもたらす。
我々は、マイノリティクラスにおける合成対実例を生成する新しいデータ拡張手法(eXplainable AIから適応)を推進している。
4つの異なる分類器と25のデータセットを用いたいくつかの実験を報告し、本手法(CFA)がマイノリティクラスで有用な合成データポイントを生成することを示す。
論文 参考訳(メタデータ) (2021-11-05T14:14:06Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - SMOTified-GAN for class imbalanced pattern classification problems [0.41998444721319217]
本稿では,SMOTEとGANの相乗効果を持つ2相オーバーサンプリング手法を提案する。
実験の結果,様々なベンチマークデータセットにおいて,マイノリティクラス(es)のサンプル品質が向上していることが証明された。
論文 参考訳(メタデータ) (2021-08-06T06:14:05Z) - BiSTF: Bilateral-Branch Self-Training Framework for Semi-Supervised
Large-scale Fine-Grained Recognition [28.06659482245647]
半教師付きファイングラインド認識は、データ不均衡、高いクラス間類似性、ドメインミスマッチによる課題である。
本稿では,バイラテラルブランチ・セルフトレーニング・フレームワーク (Bilateral-Branch Self-Training Framework, BiSTF) を提案する。
BiSTFはSemi-iNatデータセット上で既存の最先端SSLよりも優れています。
論文 参考訳(メタデータ) (2021-07-14T15:28:54Z) - Over-Fit: Noisy-Label Detection based on the Overfitted Model Property [9.606966168918849]
本研究では,個々のデータ点に過度に適合する特性を利用した新しいノイズラベル検出アルゴリズムを提案する。
我々は,本手法を実世界のビデオデータセットに拡張できるだけでなく,オーバーフィッティングによる問題を解決するための正規化手法として見ることもできることを示した。
論文 参考訳(メタデータ) (2021-06-14T08:04:18Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。