論文の概要: Efficient Hybrid Oversampling and Intelligent Undersampling for
Imbalanced Big Data Classification
- arxiv url: http://arxiv.org/abs/2310.05789v1
- Date: Mon, 9 Oct 2023 15:22:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 06:47:23.211778
- Title: Efficient Hybrid Oversampling and Intelligent Undersampling for
Imbalanced Big Data Classification
- Title(参考訳): 不均衡ビッグデータ分類のための効率的なハイブリッドオーバーサンプリングとインテリジェントアンサンプリング
- Authors: Carla Vairetti, Jos\'e Luis Assadi, Sebasti\'an Maldonado
- Abstract要約: 本稿では,MapReduceフレームワークを用いて,インテリジェントアンダーサンプリングとオーバーサンプリングを組み合わせたSMOTENNという新しいリサンプリング手法を提案する。
実験の結果,この手法の利点が示され,小規模・中規模のデータセットに対する代替サンプリング技術よりも優れていた。
- 参考スコア(独自算出の注目度): 1.03590082373586
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Imbalanced classification is a well-known challenge faced by many real-world
applications. This issue occurs when the distribution of the target variable is
skewed, leading to a prediction bias toward the majority class. With the
arrival of the Big Data era, there is a pressing need for efficient solutions
to solve this problem. In this work, we present a novel resampling method
called SMOTENN that combines intelligent undersampling and oversampling using a
MapReduce framework. Both procedures are performed on the same pass over the
data, conferring efficiency to the technique. The SMOTENN method is
complemented with an efficient implementation of the neighborhoods related to
the minority samples. Our experimental results show the virtues of this
approach, outperforming alternative resampling techniques for small- and
medium-sized datasets while achieving positive results on large datasets with
reduced running times.
- Abstract(参考訳): 不均衡な分類は多くの現実世界のアプリケーションで直面するよく知られた課題である。
この問題は、ターゲット変数の分布が歪んだときに起こり、多数派クラスに対する予測バイアスにつながる。
ビッグデータの時代が到来すると、この問題を解決するための効率的なソリューションの必要性が高まる。
本稿では,MapReduceフレームワークを用いたインテリジェントアンダーサンプリングとオーバーサンプリングを組み合わせた,SMOTENNと呼ばれる新しいリサンプリング手法を提案する。
どちらの手順もデータ上の同じパスで実行され、その技術に効率性を与える。
SMOTENN法は, マイノリティサンプルに関連する地区の効率的な実装を補完する。
実験結果は,この手法の利点を示し,小中規模のデータセットに対する代替再サンプリング手法を上回り,実行時間を短縮した大規模データセットに対して肯定的な結果を得た。
関連論文リスト
- Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - BSGAN: A Novel Oversampling Technique for Imbalanced Pattern
Recognitions [0.0]
クラス不均衡問題(CIP)は、予測のための非バイアスの機械学習(ML)モデルを開発する際の潜在的な課題の1つである。
CIPは、データサンプルが2つまたは複数のクラス間で等しく分散されていない場合に発生する。
本研究では,より多様なデータを生成するために,境界線SMOTEとジェネレーティブ・アドリラル・ネットワークのパワーを組み合わせたハイブリッド・オーバーサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:02:39Z) - Generative Oversampling for Imbalanced Data via Majority-Guided VAE [15.93867386081279]
本稿では,多数派の指導のもと,新たなマイノリティサンプルを生成する,Majority-Guided VAE(MGVAE)と呼ばれる新しいオーバーサンプリングモデルを提案する。
このようにして、新しく生成されたマイノリティサンプルは、大多数のサンプルの多様性と豊かさを継承することができ、下流タスクにおける過度な適合を軽減できる。
論文 参考訳(メタデータ) (2023-02-14T06:35:23Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - A Novel Hybrid Sampling Framework for Imbalanced Learning [0.0]
SMOTE-RUS-NC」は他の最先端サンプリング技術と比較されている。
26個の不均衡なデータセットで厳密な実験が行われた。
論文 参考訳(メタデータ) (2022-08-20T07:04:00Z) - Distributed Dynamic Safe Screening Algorithms for Sparse Regularization [73.85961005970222]
本稿では,分散動的安全スクリーニング(DDSS)手法を提案し,共有メモリアーキテクチャと分散メモリアーキテクチャにそれぞれ適用する。
提案手法は, 線形収束率を低次複雑度で達成し, 有限個の繰り返しにおいてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。
論文 参考訳(メタデータ) (2022-04-23T02:45:55Z) - Stop Oversampling for Class Imbalance Learning: A Critical Review [0.9208007322096533]
オーバーサンプリングは、不均衡なデータセットから学ぶことの難しさを克服するために採用されている。
オーバーサンプリングアプローチの根本的な難しさは、実生個体数を考えると、合成標本が真のマイノリティクラスに属していないことである。
我々は,多数のサンプルを隠蔽し,オーバーサンプリングプロセスによって生成されたものと比較し,新しいオーバーサンプリング評価システムを開発した。
論文 参考訳(メタデータ) (2022-02-04T15:11:11Z) - Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:09:08Z) - UGRWO-Sampling for COVID-19 dataset: A modified random walk
under-sampling approach based on graphs to imbalanced data classification [2.15242029196761]
本稿では,不均衡なデータセットのグラフに基づく新しいRWO-Sampling(Random Walk Over-Sampling)を提案する。
アンダーサンプリング法とオーバーサンプリング法に基づく2つのスキームを導入し,ノイズや外れ値に対して近接情報を堅牢に保つ。
論文 参考訳(メタデータ) (2020-02-10T03:29:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。