論文の概要: Effective Class-Imbalance learning based on SMOTE and Convolutional
Neural Networks
- arxiv url: http://arxiv.org/abs/2209.00653v1
- Date: Thu, 1 Sep 2022 07:42:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:39:20.626807
- Title: Effective Class-Imbalance learning based on SMOTE and Convolutional
Neural Networks
- Title(参考訳): SMOTEと畳み込みニューラルネットワークに基づく効果的なクラスバランス学習
- Authors: Javad Hasannataj Joloudari, Abdolreza Marefat and Mohammad Ali
Nematollahi
- Abstract要約: 不均衡データ(ID)は、機械学習(ML)モデルから満足な結果を得るための問題である。
本稿では,Deep Neural Networks(DNN)とConvolutional Neural Networks(CNN)に基づく手法の有効性を検討する。
信頼性の高い結果を得るために,ランダムにシャッフルしたデータ分布を用いて100回実験を行った。
- 参考スコア(独自算出の注目度): 0.1074267520911262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imbalanced Data (ID) is a problem that deters Machine Learning (ML) models
for achieving satisfactory results. ID is the occurrence of a situation where
the quantity of the samples belonging to one class outnumbers that of the other
by a wide margin, making such models learning process biased towards the
majority class. In recent years, to address this issue, several solutions have
been put forward, which opt for either synthetically generating new data for
the minority class or reducing the number of majority classes for balancing the
data. Hence, in this paper, we investigate the effectiveness of methods based
on Deep Neural Networks (DNNs) and Convolutional Neural Networks (CNNs), mixed
with a variety of well-known imbalanced data solutions meaning oversampling and
undersampling. To evaluate our methods, we have used KEEL, breast cancer, and
Z-Alizadeh Sani datasets. In order to achieve reliable results, we conducted
our experiments 100 times with randomly shuffled data distributions. The
classification results demonstrate that the mixed Synthetic Minority
Oversampling Technique (SMOTE)-Normalization-CNN outperforms different
methodologies achieving 99.08% accuracy on the 24 imbalanced datasets.
Therefore, the proposed mixed model can be applied to imbalanced binary
classification problems on other real datasets.
- Abstract(参考訳): 不均衡データ(ID)は、機械学習(ML)モデルから満足な結果を得るための問題である。
IDは、あるクラスに属するサンプルの量が他のクラスよりも広いマージンで倍増し、そのような学習プロセスが多数クラスに偏っている状況の発生である。
近年、この問題に対処するために、マイノリティクラスの新しいデータを合成的に生成するか、データのバランスをとるために多数派クラスの数を減らしたいくつかのソリューションが提案されている。
そこで本稿では,Deep Neural Networks (DNN) とConvolutional Neural Networks (CNN) に基づく手法の有効性を検討する。
本手法を評価するために,KEEL,乳癌,Z-アリザデー・サニデータセットを用いた。
信頼性の高い結果を得るために,ランダムにシャッフルしたデータ分布を用いて100回実験を行った。
その結果,混合合成マイノリティオーバーサンプリング法(SMOTE)-Normalization-CNNは,24個の不均衡データセットに対して99.08%の精度で異なる手法より優れていた。
したがって,提案する混合モデルは他の実データに対する不均衡バイナリ分類問題に適用することができる。
関連論文リスト
- Few-shot learning for COVID-19 Chest X-Ray Classification with
Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。
データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。
本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T16:59:27Z) - Skew-Probabilistic Neural Networks for Learning from Imbalanced Data [3.233103072575564]
本稿では,確率論的ニューラルネットワーク(PNN)とスキューノーマルカーネル関数を用いた不均衡なデータ指向分類器を提案する。
柔軟性を向上するスキュー正規分布を利用することで、提案したスキュー確率ニューラルネットワーク(SkewPNN)は、下層のクラス密度をよりよく表現できる。
いくつかのデータセットにおける実データ解析により、SkiwPNNとBA-SkewPNNは、バランスの取れたデータセットと不均衡なデータセットの両方において、最先端の機械学習手法よりも大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-10T13:12:55Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Class-Balancing Diffusion Models [57.38599989220613]
クラスバランシング拡散モデル(CBDM)は、分散調整正規化器をソリューションとして訓練する。
提案手法は,CIFAR100/CIFAR100LTデータセットで生成結果をベンチマークし,下流認識タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-30T20:00:14Z) - A Novel Hybrid Sampling Framework for Imbalanced Learning [0.0]
SMOTE-RUS-NC」は他の最先端サンプリング技術と比較されている。
26個の不均衡なデータセットで厳密な実験が行われた。
論文 参考訳(メタデータ) (2022-08-20T07:04:00Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z) - Effect of Balancing Data Using Synthetic Data on the Performance of
Machine Learning Classifiers for Intrusion Detection in Computer Networks [3.233545237942899]
アカデミックと産業の研究者たちは、コンピュータネットワークのための侵入検知システム(IDSe)の設計と実装に機械学習(ML)技術を使用した。
このようなシステムで使用される多くのデータセットでは、データは不均衡である(つまり、すべてのクラスが同じ量のサンプルを持っているわけではない)。
また,CTGANが生成した合成試料とバランスの取れたデータセット上でのMLモデルのトレーニングにより,予測精度が最大8%向上した。
論文 参考訳(メタデータ) (2022-04-01T00:25:11Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Imbalanced Data Learning by Minority Class Augmentation using Capsule
Adversarial Networks [31.073558420480964]
本稿では,2つの同時手法を合体させて,不均衡な画像のバランスを回復する手法を提案する。
我々のモデルでは、生成的および識別的ネットワークは、新しい競争力のあるゲームをする。
カプセルGANの合体は、畳み込みGANと比較して非常に少ないパラメータで重なり合うクラスを認識するのに効果的である。
論文 参考訳(メタデータ) (2020-04-05T12:36:06Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。