論文の概要: Effective Class-Imbalance learning based on SMOTE and Convolutional
Neural Networks
- arxiv url: http://arxiv.org/abs/2209.00653v1
- Date: Thu, 1 Sep 2022 07:42:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:39:20.626807
- Title: Effective Class-Imbalance learning based on SMOTE and Convolutional
Neural Networks
- Title(参考訳): SMOTEと畳み込みニューラルネットワークに基づく効果的なクラスバランス学習
- Authors: Javad Hasannataj Joloudari, Abdolreza Marefat and Mohammad Ali
Nematollahi
- Abstract要約: 不均衡データ(ID)は、機械学習(ML)モデルから満足な結果を得るための問題である。
本稿では,Deep Neural Networks(DNN)とConvolutional Neural Networks(CNN)に基づく手法の有効性を検討する。
信頼性の高い結果を得るために,ランダムにシャッフルしたデータ分布を用いて100回実験を行った。
- 参考スコア(独自算出の注目度): 0.1074267520911262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imbalanced Data (ID) is a problem that deters Machine Learning (ML) models
for achieving satisfactory results. ID is the occurrence of a situation where
the quantity of the samples belonging to one class outnumbers that of the other
by a wide margin, making such models learning process biased towards the
majority class. In recent years, to address this issue, several solutions have
been put forward, which opt for either synthetically generating new data for
the minority class or reducing the number of majority classes for balancing the
data. Hence, in this paper, we investigate the effectiveness of methods based
on Deep Neural Networks (DNNs) and Convolutional Neural Networks (CNNs), mixed
with a variety of well-known imbalanced data solutions meaning oversampling and
undersampling. To evaluate our methods, we have used KEEL, breast cancer, and
Z-Alizadeh Sani datasets. In order to achieve reliable results, we conducted
our experiments 100 times with randomly shuffled data distributions. The
classification results demonstrate that the mixed Synthetic Minority
Oversampling Technique (SMOTE)-Normalization-CNN outperforms different
methodologies achieving 99.08% accuracy on the 24 imbalanced datasets.
Therefore, the proposed mixed model can be applied to imbalanced binary
classification problems on other real datasets.
- Abstract(参考訳): 不均衡データ(ID)は、機械学習(ML)モデルから満足な結果を得るための問題である。
IDは、あるクラスに属するサンプルの量が他のクラスよりも広いマージンで倍増し、そのような学習プロセスが多数クラスに偏っている状況の発生である。
近年、この問題に対処するために、マイノリティクラスの新しいデータを合成的に生成するか、データのバランスをとるために多数派クラスの数を減らしたいくつかのソリューションが提案されている。
そこで本稿では,Deep Neural Networks (DNN) とConvolutional Neural Networks (CNN) に基づく手法の有効性を検討する。
本手法を評価するために,KEEL,乳癌,Z-アリザデー・サニデータセットを用いた。
信頼性の高い結果を得るために,ランダムにシャッフルしたデータ分布を用いて100回実験を行った。
その結果,混合合成マイノリティオーバーサンプリング法(SMOTE)-Normalization-CNNは,24個の不均衡データセットに対して99.08%の精度で異なる手法より優れていた。
したがって,提案する混合モデルは他の実データに対する不均衡バイナリ分類問題に適用することができる。
関連論文リスト
- An Embarrassingly Simple Baseline for Imbalanced Semi-Supervised
Learning [103.86497165324752]
半教師付き学習(SSL)は、ラベルのないデータを活用してモデルのパフォーマンスを向上させるという大きな約束を示している。
我々は、ラベル付きデータとラベルなしデータの両方で不均衡なクラス分散が発生する不均衡SSLという、より現実的で困難な設定について検討する。
我々は、ラベル付きデータを擬似ラベルで単純に補うことで、データの不均衡に取り組む単純なベースライン、SimiSについて研究する。
論文 参考訳(メタデータ) (2022-11-20T21:18:41Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - A Novel Hybrid Sampling Framework for Imbalanced Learning [0.0]
SMOTE-RUS-NC」は他の最先端サンプリング技術と比較されている。
26個の不均衡なデータセットで厳密な実験が行われた。
論文 参考訳(メタデータ) (2022-08-20T07:04:00Z) - A Hybrid Approach for Binary Classification of Imbalanced Data [0.0]
本稿では,データブロック構築,次元減少,アンサンブル学習を併用したハイブリットアプローチHADRを提案する。
我々は、8つの不均衡な公開データセットの性能をリコール、G平均、AUCで評価した。
論文 参考訳(メタデータ) (2022-07-06T15:18:41Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z) - Effect of Balancing Data Using Synthetic Data on the Performance of
Machine Learning Classifiers for Intrusion Detection in Computer Networks [3.233545237942899]
アカデミックと産業の研究者たちは、コンピュータネットワークのための侵入検知システム(IDSe)の設計と実装に機械学習(ML)技術を使用した。
このようなシステムで使用される多くのデータセットでは、データは不均衡である(つまり、すべてのクラスが同じ量のサンプルを持っているわけではない)。
また,CTGANが生成した合成試料とバランスの取れたデータセット上でのMLモデルのトレーニングにより,予測精度が最大8%向上した。
論文 参考訳(メタデータ) (2022-04-01T00:25:11Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - SMOTified-GAN for class imbalanced pattern classification problems [0.41998444721319217]
本稿では,SMOTEとGANの相乗効果を持つ2相オーバーサンプリング手法を提案する。
実験の結果,様々なベンチマークデータセットにおいて,マイノリティクラス(es)のサンプル品質が向上していることが証明された。
論文 参考訳(メタデータ) (2021-08-06T06:14:05Z) - Imbalanced Data Learning by Minority Class Augmentation using Capsule
Adversarial Networks [31.073558420480964]
本稿では,2つの同時手法を合体させて,不均衡な画像のバランスを回復する手法を提案する。
我々のモデルでは、生成的および識別的ネットワークは、新しい競争力のあるゲームをする。
カプセルGANの合体は、畳み込みGANと比較して非常に少ないパラメータで重なり合うクラスを認識するのに効果的である。
論文 参考訳(メタデータ) (2020-04-05T12:36:06Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。