論文の概要: Benchmark of Data Preprocessing Methods for Imbalanced Classification
- arxiv url: http://arxiv.org/abs/2303.03094v1
- Date: Mon, 6 Mar 2023 13:12:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 16:16:01.747395
- Title: Benchmark of Data Preprocessing Methods for Imbalanced Classification
- Title(参考訳): 不均衡分類のためのデータ前処理手法のベンチマーク
- Authors: Radovan Halu\v{s}ka, Jan Brabec and Tom\'a\v{s} Kom\'arek
- Abstract要約: 深刻な階級不均衡は、サイバーセキュリティにおける機械学習を難しくする主要な条件の1つだ。
本稿では,6つのサイバーセキュリティデータセットに対する16の事前処理手法のベンチマークと,他のドメインからの17の公開不均衡データセットについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Severe class imbalance is one of the main conditions that make machine
learning in cybersecurity difficult. A variety of dataset preprocessing methods
have been introduced over the years. These methods modify the training dataset
by oversampling, undersampling or a combination of both to improve the
predictive performance of classifiers trained on this dataset. Although these
methods are used in cybersecurity occasionally, a comprehensive, unbiased
benchmark comparing their performance over a variety of cybersecurity problems
is missing. This paper presents a benchmark of 16 preprocessing methods on six
cybersecurity datasets together with 17 public imbalanced datasets from other
domains. We test the methods under multiple hyperparameter configurations and
use an AutoML system to train classifiers on the preprocessed datasets, which
reduces potential bias from specific hyperparameter or classifier choices.
Special consideration is also given to evaluating the methods using appropriate
performance measures that are good proxies for practical performance in
real-world cybersecurity systems. The main findings of our study are: 1) Most
of the time, a data preprocessing method that improves classification
performance exists. 2) Baseline approach of doing nothing outperformed a large
portion of methods in the benchmark. 3) Oversampling methods generally
outperform undersampling methods. 4) The most significant performance gains are
brought by the standard SMOTE algorithm and more complicated methods provide
mainly incremental improvements at the cost of often worse computational
performance.
- Abstract(参考訳): 厳しいクラスの不均衡は、サイバーセキュリティにおける機械学習を困難にする主な条件の1つである。
近年,データセットのプリプロセッシング手法が数多く導入されている。
これらの方法は、トレーニングデータセットをオーバーサンプリング、アンダーサンプリング、あるいは両方の組み合わせで修正し、このデータセットでトレーニングされた分類器の予測性能を改善する。
これらの手法はサイバーセキュリティに時々使用されるが、様々なサイバーセキュリティ問題に対するパフォーマンスを比較する包括的で偏りのないベンチマークは欠落している。
本稿では,6つのサイバーセキュリティデータセットと17のパブリック不均衡データセットを対象とした16の事前処理手法のベンチマークを提案する。
我々は、複数のハイパーパラメータ構成下でメソッドをテストし、AutoMLシステムを使用して、事前処理されたデータセット上の分類器を訓練する。
また, 現実のサイバーセキュリティシステムにおいて, 適切な性能評価手法を用いて, 実用的な性能評価を行う。
私たちの研究の主な発見は
1) ほとんどの場合, 分類性能を向上させるデータ前処理方法が存在する。
2) 何もしないというベースラインアプローチは、ベンチマークのメソッドの大部分を上回っていた。
3)オーバーサンプリング法は一般にアンダーサンプリング法より優れている。
4) 最も重要な性能向上は標準smoteアルゴリズムによってもたらされるものであり、より複雑な手法は、しばしば計算性能が悪化するコストで主に漸進的な改善を提供する。
関連論文リスト
- Characterizing the Optimal 0-1 Loss for Multi-class Classification with
a Test-time Attacker [57.49330031751386]
我々は,任意の離散データセット上の複数クラス分類器に対するテスト時間攻撃の存在下での損失に対する情報理論的下位境界を求める。
本稿では,データと敵対的制約から競合ハイパーグラフを構築する際に発生する最適0-1損失を求めるための一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-21T15:17:13Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - Fraud Detection Using Optimized Machine Learning Tools Under Imbalance
Classes [0.304585143845864]
機械学習(ML)ツールのスマートバージョンによる不正検出は、安全性を保証するために不可欠である。
本稿では,4つの最先端ML手法,すなわちロジスティック回帰,決定木,ランダム森林,極端な勾配上昇について検討する。
フィッシングサイトURLとクレジットカード不正取引データセットは、元のデータに基づいてトレーニングされた極端な勾配が、信頼できるパフォーマンスを示していることを示している。
論文 参考訳(メタデータ) (2022-09-04T15:30:23Z) - Continual Learning For On-Device Environmental Sound Classification [63.81276321857279]
デバイス上での環境音の分類のための簡易かつ効率的な連続学習法を提案する。
本手法は,サンプルごとの分類の不確実性を測定することにより,トレーニングの履歴データを選択する。
論文 参考訳(メタデータ) (2022-07-15T12:13:04Z) - Distributed Dynamic Safe Screening Algorithms for Sparse Regularization [73.85961005970222]
本稿では,分散動的安全スクリーニング(DDSS)手法を提案し,共有メモリアーキテクチャと分散メモリアーキテクチャにそれぞれ適用する。
提案手法は, 線形収束率を低次複雑度で達成し, 有限個の繰り返しにおいてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。
論文 参考訳(メタデータ) (2022-04-23T02:45:55Z) - Solving the Class Imbalance Problem Using a Counterfactual Method for
Data Augmentation [4.454557728745761]
クラス不均衡データセットからの学習は、機械学習アルゴリズムに課題をもたらす。
我々は、マイノリティクラスにおける合成対実例を生成する新しいデータ拡張手法(eXplainable AIから適応)を推進している。
4つの異なる分類器と25のデータセットを用いたいくつかの実験を報告し、本手法(CFA)がマイノリティクラスで有用な合成データポイントを生成することを示す。
論文 参考訳(メタデータ) (2021-11-05T14:14:06Z) - Semantic Perturbations with Normalizing Flows for Improved
Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。
トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文 参考訳(メタデータ) (2021-08-18T03:20:00Z) - Hybrid Ensemble optimized algorithm based on Genetic Programming for
imbalanced data classification [0.0]
本稿では,2種類の不均衡データ分類のための遺伝的プログラミング(GP)に基づくハイブリッドアンサンブルアルゴリズムを提案する。
実験結果から,提案手法をトレーニングセットのサイズで指定したデータセット上での性能は,マイノリティクラス予測の他の次元よりも40%,50%高い精度を示した。
論文 参考訳(メタデータ) (2021-06-02T14:14:38Z) - Does imputation matter? Benchmark for predictive models [5.802346990263708]
本稿では,予測モデルに対するデータ計算アルゴリズムの実証的効果を体系的に評価する。
主な貢献は,(1)実生活の分類タスクに基づく経験的ベンチマークのための一般的な手法の推薦である。
論文 参考訳(メタデータ) (2020-07-06T15:47:36Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Stacked Generalizations in Imbalanced Fraud Data Sets using Resampling
Methods [2.741266294612776]
本研究では,メタあるいはスーパーラーナと呼ばれる2段階の機械学習手法を組み合わせることによって,アルゴリズムの性能向上を図る。
アルゴリズムのサンプルセットのすべての置換を考慮に入れたテストハーネスを構築することは、複雑な本質的なデータ構造がすべて徹底的にテストされていることを示す。
論文 参考訳(メタデータ) (2020-04-03T20:38:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。