論文の概要: A Synthetic Over-sampling method with Minority and Majority classes for
imbalance problems
- arxiv url: http://arxiv.org/abs/2011.04170v2
- Date: Tue, 10 Aug 2021 05:40:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 01:35:13.001783
- Title: A Synthetic Over-sampling method with Minority and Majority classes for
imbalance problems
- Title(参考訳): 不均衡問題に対するマイノリティクラスとマジョリティクラスを用いた合成オーバーサンプリング法
- Authors: Hadi A. Khorshidi and Uwe Aickelin
- Abstract要約: マイノリティクラスとマイノリティクラス(SOMM)を用いて合成インスタンスを生成する新しい手法を提案する。
SOMMは、マイノリティデータ空間内で多様な合成インスタンスを生成する。
生成されたインスタンスを、両方のクラスを含む近隣に適応的に更新する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Class imbalance is a substantial challenge in classifying many real-world
cases. Synthetic over-sampling methods have been effective to improve the
performance of classifiers for imbalance problems. However, most synthetic
over-sampling methods generate non-diverse synthetic instances within the
convex hull formed by the existing minority instances as they only concentrate
on the minority class and ignore the vast information provided by the majority
class. They also often do not perform well for extremely imbalanced data as the
fewer the minority instances, the less information to generate synthetic
instances. Moreover, existing methods that generate synthetic instances using
the majority class distributional information cannot perform effectively when
the majority class has a multi-modal distribution. We propose a new method to
generate diverse and adaptable synthetic instances using Synthetic
Over-sampling with Minority and Majority classes (SOMM). SOMM generates
synthetic instances diversely within the minority data space. It updates the
generated instances adaptively to the neighbourhood including both classes.
Thus, SOMM performs well for both binary and multiclass imbalance problems. We
examine the performance of SOMM for binary and multiclass problems using
benchmark data sets for different imbalance levels. The empirical results show
the superiority of SOMM compared to other existing methods.
- Abstract(参考訳): クラス不均衡は多くの現実世界のケースを分類する上で大きな課題である。
合成オーバーサンプリング法は,不均衡問題に対する分類器の性能向上に有効である。
しかし、ほとんどの合成オーバーサンプリング法は、少数派にのみ集中し、多数派が提供した膨大な情報を無視するため、既存の少数派インスタンスによって形成された凸内における非多変数合成インスタンスを生成する。
また、マイノリティインスタンスが少ないほど、合成インスタンスを生成する情報が少ないため、非常に不均衡なデータではうまく機能しないことが多い。
さらに、多数派分布情報を用いた合成インスタンスを生成する既存の方法は、多数派分布を持つ場合、効果的に実行できない。
マイノリティ・マイノリティクラス(SOMM)を用いたSynthetic Over-Samplingを用いて,多種多様な適応可能な合成インスタンスを生成する手法を提案する。
SOMMはマイノリティデータ空間内で多様な合成インスタンスを生成する。
生成されたインスタンスを、両方のクラスを含む近隣に適応的に更新する。
したがって、somはバイナリとマルチクラスの不均衡問題の両方に対してうまく機能する。
不均衡レベルが異なるベンチマークデータセットを用いて,二進問題と多進問題に対するSOMMの性能について検討した。
実験の結果, 従来の方法に比べてSOMMの方が優れていることがわかった。
関連論文リスト
- Minimum Enclosing Ball Synthetic Minority Oversampling Technique from a Geometric Perspective [1.7851435784917604]
クラス不均衡は、データセット内の異なるクラスからのサンプルの数に顕著な違いを示す。
この問題は、ソフトウェア欠陥予測、診断、不正検出など、現実世界の分類タスクで広く使われている。
クラス不均衡問題に対処するために合成マイノリティオーバーサンプリング技術(SMOTE)が広く用いられている。
本稿では,幾何学的観点から最小閉球(MEB-SMOTE)法を提案する。
論文 参考訳(メタデータ) (2024-08-07T03:37:25Z) - Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Generative Oversampling for Imbalanced Data via Majority-Guided VAE [15.93867386081279]
本稿では,多数派の指導のもと,新たなマイノリティサンプルを生成する,Majority-Guided VAE(MGVAE)と呼ばれる新しいオーバーサンプリングモデルを提案する。
このようにして、新しく生成されたマイノリティサンプルは、大多数のサンプルの多様性と豊かさを継承することができ、下流タスクにおける過度な適合を軽減できる。
論文 参考訳(メタデータ) (2023-02-14T06:35:23Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - An Embarrassingly Simple Baseline for Imbalanced Semi-Supervised
Learning [103.65758569417702]
半教師付き学習(SSL)は、ラベルのないデータを活用してモデルのパフォーマンスを向上させるという大きな約束を示している。
我々は、ラベル付きデータとラベルなしデータの両方で不均衡なクラス分散が発生する不均衡SSLという、より現実的で困難な設定について検討する。
我々は、ラベル付きデータを擬似ラベルで単純に補うことで、データの不均衡に取り組む単純なベースライン、SimiSについて研究する。
論文 参考訳(メタデータ) (2022-11-20T21:18:41Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Solving the Class Imbalance Problem Using a Counterfactual Method for
Data Augmentation [4.454557728745761]
クラス不均衡データセットからの学習は、機械学習アルゴリズムに課題をもたらす。
我々は、マイノリティクラスにおける合成対実例を生成する新しいデータ拡張手法(eXplainable AIから適応)を推進している。
4つの異なる分類器と25のデータセットを用いたいくつかの実験を報告し、本手法(CFA)がマイノリティクラスで有用な合成データポイントを生成することを示す。
論文 参考訳(メタデータ) (2021-11-05T14:14:06Z) - Synthesising Multi-Modal Minority Samples for Tabular Data [3.7311680121118345]
トレーニング前にデータセットに合成マイノリティサンプルを追加することは、この困難に対処するための一般的なテクニックである。
本稿では,多モードサンプルを高密度連続潜時空間にマッピングする潜時空間フレームワークを提案する。
我々のフレームワークは既存の手法よりも優れた合成データを生成する。
論文 参考訳(メタデータ) (2021-05-17T23:54:08Z) - A Novel Adaptive Minority Oversampling Technique for Improved
Classification in Data Imbalanced Scenarios [23.257891827728827]
異なるクラスに属するトレーニングサンプルの割合の不均衡は、しばしば従来の分類器の性能低下を引き起こす。
不均衡なデータに対処する新しい3ステップ手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T09:58:02Z) - M2m: Imbalanced Classification via Major-to-minor Translation [79.09018382489506]
ほとんどの実世界のシナリオでは、ラベル付きトレーニングデータセットは非常にクラス不均衡であり、ディープニューラルネットワークは、バランスの取れたテスト基準への一般化に苦しむ。
本稿では,より頻度の低いクラスを,より頻度の低いクラスからのサンプルを翻訳することによって,この問題を緩和する新しい方法を提案する。
提案手法は,従来の再サンプリング法や再重み付け法と比較して,マイノリティクラスの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-04-01T13:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。