論文の概要: A Novel Resampling Technique for Imbalanced Dataset Optimization
- arxiv url: http://arxiv.org/abs/2012.15231v1
- Date: Wed, 30 Dec 2020 17:17:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 11:58:45.431878
- Title: A Novel Resampling Technique for Imbalanced Dataset Optimization
- Title(参考訳): 不均衡データセット最適化のための新しい再サンプリング手法
- Authors: Ivan Letteri, Antonio Di Cecco, Abeer Dyoub, Giuseppe Della Penna
- Abstract要約: まれなイベントの分類は、詐欺取引、マルウェアトラフィック分析、ネットワーク侵入検出など、多くのドメインで一般的な問題です。
我々は,クラス不均衡問題に対処する2種類の1-Nearest Neighbour (G1Nos)オーバーサンプリングアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 1.0323063834827415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the enormous amount of data, particular events of interest can still
be quite rare. Classification of rare events is a common problem in many
domains, such as fraudulent transactions, malware traffic analysis and network
intrusion detection. Many studies have been developed for malware detection
using machine learning approaches on various datasets, but as far as we know
only the MTA-KDD'19 dataset has the peculiarity of updating the representative
set of malicious traffic on a daily basis. This daily updating is the added
value of the dataset, but it translates into a potential due to the class
imbalance problem that the RRw-Optimized MTA-KDD'19 will occur. We capture
difficulties of class distribution in real datasets by considering four types
of minority class examples: safe, borderline, rare and outliers. In this work,
we developed two versions of Generative Silhouette Resampling 1-Nearest
Neighbour (G1Nos) oversampling algorithms for dealing with class imbalance
problem. The first module of G1Nos algorithms performs a coefficient-based
instance selection silhouette identifying the critical threshold of Imbalance
Degree. (ID), the second module generates synthetic samples using a SMOTE-like
oversampling algorithm. The balancing of the classes is done by our G1Nos
algorithms to re-establish the proportions between the two classes of the used
dataset. The experimental results show that our oversampling algorithm work
better than the other two SOTA methodologies in all the metrics considered.
- Abstract(参考訳): 膨大な量のデータにもかかわらず、特定の関心のある出来事は依然として極めて稀である。
まれな事象の分類は、不正取引、マルウェアのトラフィック分析、ネットワーク侵入検出など、多くのドメインで一般的な問題である。
さまざまなデータセットに対する機械学習アプローチを用いたマルウェア検出のための多くの研究が開発されているが、MTA-KDD'19データセットのみが、日々の悪意のあるトラフィックの代表セットを更新する特質を持っている。
この日次更新はデータセットの追加値であるが、rrw最適化mta-kdd'19のクラス不均衡問題のために潜在的な可能性がある。
実際のデータセットにおけるクラス分散の難しさを,safe,borderline,realy,outlierの4種類のマイノリティクラス例から把握する。
本研究では,クラス不均衡問題に対する1-Nearest Neighbour(G1Nos)オーバーサンプリングアルゴリズムの2つのバージョンを開発した。
G1Nosアルゴリズムの最初のモジュールは、Im Balance Degreeの臨界しきい値を特定する係数ベースのインスタンス選択シルエットを実行する。
(ID)2番目のモジュールはSMOTEライクなオーバーサンプリングアルゴリズムを用いて合成サンプルを生成する。
クラスのバランシングは、使用済みデータセットの2つのクラス間の比率を再確立するために、G1Nosアルゴリズムによって行われます。
実験結果から, オーバーサンプリングアルゴリズムは他の2つのSOTA手法よりも有効であることがわかった。
関連論文リスト
- ROG$_{PL}$: Robust Open-Set Graph Learning via Region-Based Prototype
Learning [52.60434474638983]
本稿では,複雑な雑音グラフデータに対する堅牢なオープンセット学習を実現するために,ROG$_PL$という統一フレームワークを提案する。
このフレームワークは2つのモジュール、すなわちラベルの伝搬による認知と、リージョンによるオープンセットのプロトタイプ学習で構成されている。
我々の知る限り、ROG$_PL$は複雑なノイズを持つグラフデータに対して、最初の堅牢なオープンセットノード分類法である。
論文 参考訳(メタデータ) (2024-02-28T17:25:06Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls
and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。
近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。
これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文 参考訳(メタデータ) (2023-06-18T01:58:59Z) - AnoRand: A Semi Supervised Deep Learning Anomaly Detection Method by
Random Labeling [0.0]
異常検出(英: Anomaly detection)またはより一般的には異常検出(英: outliers detection)は、理論的および応用機械学習において最も人気があり、課題の1つである。
我々は、ディープラーニングアーキテクチャとランダムな合成ラベル生成を組み合わせることで、textbfAnoRandと呼ばれる新しい半教師付き異常検出手法を提案する。
論文 参考訳(メタデータ) (2023-05-28T10:53:34Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - A Novel Hybrid Sampling Framework for Imbalanced Learning [0.0]
SMOTE-RUS-NC」は他の最先端サンプリング技術と比較されている。
26個の不均衡なデータセットで厳密な実験が行われた。
論文 参考訳(メタデータ) (2022-08-20T07:04:00Z) - Multi-granularity Relabeled Under-sampling Algorithm for Imbalanced Data [15.030895782548576]
不均衡な分類問題は、データマイニングと機械学習において重要かつ困難な問題の1つであることが判明した。
Tomek-Linkサンプリングアルゴリズムは、データ上のクラスオーバーラップを効果的に低減し、識別が難しい多数インスタンスを除去し、アルゴリズムの分類精度を向上させる。
しかし、Tomek-Linksアンダーサンプリングアルゴリズムは、世界中に最も近い隣り合う境界インスタンスのみを考慮し、潜在的に局所的な重複するインスタンスを無視している。
本稿では,データセットの局所的情報を完全に考慮した多粒度アンダーサンプリングアルゴリズム(MGRU)を提案する。
論文 参考訳(メタデータ) (2022-01-11T14:07:55Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - A Method for Handling Multi-class Imbalanced Data by Geometry based
Information Sampling and Class Prioritized Synthetic Data Generation (GICaPS) [15.433936272310952]
本稿では,多ラベル分類問題における不均衡データ処理の問題について考察する。
特徴ベクトル間の幾何学的関係を利用する2つの新しい手法が提案されている。
提案手法の有効性は,汎用的なマルチクラス認識問題を解くことによって解析する。
論文 参考訳(メタデータ) (2020-10-11T04:04:26Z) - The Integrity of Machine Learning Algorithms against Software Defect
Prediction [0.0]
本報告では,Liangらが開発したオンラインシーケンス・エクストリーム・ラーニング・マシン(OS-ELM)の性能を解析する。
OS-ELMは従来のディープニューラルネットワークよりも高速にトレーニングし、常にグローバルな最適解に収束する。
この分析は、NASAグループが実施する3つのプロジェクトKC1、PC4、PC3で実施される。
論文 参考訳(メタデータ) (2020-09-05T17:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。