論文の概要: Combined Cleaning and Resampling Algorithm for Multi-Class Imbalanced
Data with Label Noise
- arxiv url: http://arxiv.org/abs/2004.03406v1
- Date: Tue, 7 Apr 2020 13:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 23:04:08.161788
- Title: Combined Cleaning and Resampling Algorithm for Multi-Class Imbalanced
Data with Label Noise
- Title(参考訳): ラベルノイズを伴うマルチクラス不均衡データに対するクリーニングと再サンプリングの組合せアルゴリズム
- Authors: Micha{\l} Koziarski, Micha{\l} Wo\'zniak, Bartosz Krawczyk
- Abstract要約: 本稿では,新しいオーバーサンプリング手法であるマルチクラス・コンバインド・クリーニングとリサンプリングのアルゴリズムを提案する。
提案手法は, オーバーサンプリングに適した領域をモデル化するためのエネルギーベース手法を用いて, SMOTEよりも小さな解離や外れ値の影響を受けない。
重なり合うクラス分布が学習アルゴリズムの性能に与える影響を低減することを目的として, 同時クリーニング操作と組み合わせた。
- 参考スコア(独自算出の注目度): 11.868507571027626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The imbalanced data classification is one of the most crucial tasks facing
modern data analysis. Especially when combined with other difficulty factors,
such as the presence of noise, overlapping class distributions, and small
disjuncts, data imbalance can significantly impact the classification
performance. Furthermore, some of the data difficulty factors are known to
affect the performance of the existing oversampling strategies, in particular
SMOTE and its derivatives. This effect is especially pronounced in the
multi-class setting, in which the mutual imbalance relationships between the
classes complicate even further. Despite that, most of the contemporary
research in the area of data imbalance focuses on the binary classification
problems, while their more difficult multi-class counterparts are relatively
unexplored. In this paper, we propose a novel oversampling technique, a
Multi-Class Combined Cleaning and Resampling (MC-CCR) algorithm. The proposed
method utilizes an energy-based approach to modeling the regions suitable for
oversampling, less affected by small disjuncts and outliers than SMOTE. It
combines it with a simultaneous cleaning operation, the aim of which is to
reduce the effect of overlapping class distributions on the performance of the
learning algorithms. Finally, by incorporating a dedicated strategy of handling
the multi-class problems, MC-CCR is less affected by the loss of information
about the inter-class relationships than the traditional multi-class
decomposition strategies. Based on the results of experimental research carried
out for many multi-class imbalanced benchmark datasets, the high robust of the
proposed approach to noise was shown, as well as its high quality compared to
the state-of-art methods.
- Abstract(参考訳): 不均衡なデータ分類は、現代のデータ分析に直面する最も重要なタスクの1つです。
特にノイズの存在、クラス分布の重複、小さな切断など他の難易度要素と組み合わせると、データの不均衡は分類性能に大きな影響を与える可能性がある。
さらに、データ困難要因のいくつかは、既存のオーバーサンプリング戦略、特にSMOTEとそのデリバティブのパフォーマンスに影響を与えることが知られている。
この効果は、クラス間の相互不均衡関係がさらに複雑になる多クラス設定において特に顕著である。
それにもかかわらず、データ不均衡の分野での現代の研究のほとんどはバイナリ分類の問題に焦点を合わせているが、より難しいマルチクラスの研究は比較的未調査である。
本稿では,新しいオーバーサンプリング手法,MC-CCR (Multi-class Combined Cleaning and Resampling) アルゴリズムを提案する。
提案手法は, オーバーサンプリングに適した領域をモデル化するためのエネルギーベース手法を用いて, SMOTEよりも小さな解離や外れ値の影響を受けない。
これは同時にクリーニング操作と組み合わせることで、学習アルゴリズムの性能に重複するクラス分布の影響を減らすことを目的としている。
最後に, MC-CCRは, 多クラス問題を扱うための専用戦略を取り入れることで, 従来の多クラス分解戦略よりもクラス間関係に関する情報の喪失の影響を受けない。
多くのマルチクラス不均衡ベンチマークデータセットを対象とした実験研究の結果から,提案手法の高ロバスト性と最先端手法に対する品質が示された。
関連論文リスト
- Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - A review of ensemble learning and data augmentation models for class
imbalanced problems: combination, implementation and evaluation [0.196629787330046]
分類問題におけるクラス不均衡 (CI) は、あるクラスに属する観測回数が他のクラスよりも低い場合に生じる。
本稿では,ベンチマークCI問題に対処するために使用されるデータ拡張とアンサンブル学習手法を評価する。
論文 参考訳(メタデータ) (2023-04-06T04:37:10Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - A Hybrid Approach for Binary Classification of Imbalanced Data [0.0]
本稿では,データブロック構築,次元減少,アンサンブル学習を併用したハイブリットアプローチHADRを提案する。
我々は、8つの不均衡な公開データセットの性能をリコール、G平均、AUCで評価した。
論文 参考訳(メタデータ) (2022-07-06T15:18:41Z) - Consistency and Diversity induced Human Motion Segmentation [231.36289425663702]
本稿では,CDMS(Consistency and Diversity induced Human Motion)アルゴリズムを提案する。
我々のモデルは、ソースとターゲットデータを異なる多層特徴空間に分解する。
ソースとターゲットデータ間の領域ギャップを低減するために、マルチミューチュアル学習戦略を実行する。
論文 参考訳(メタデータ) (2022-02-10T06:23:56Z) - Envelope Imbalance Learning Algorithm based on Multilayer Fuzzy C-means
Clustering and Minimum Interlayer discrepancy [14.339674126923903]
本稿では,マルチ層ファジィc-means(MlFCM)と最小層間離散化機構(MIDMD)を用いたディープインスタンスエンベロープネットワークに基づく不均衡学習アルゴリズムを提案する。
このアルゴリズムは、事前の知識がなければ、ディープインスタンスエンベロープネットワークを使用して、高品質なバランスの取れたインスタンスを保証できる。
論文 参考訳(メタデータ) (2021-11-02T04:59:57Z) - Learning with Multiclass AUC: Theory and Algorithms [141.63211412386283]
ROC曲線 (AUC) の下の領域は、不均衡学習やレコメンダシステムといった問題に対するよく知られたランキング基準である。
本稿では,マルチクラスAUCメトリクスを最適化することで,多クラススコアリング関数を学習する問題について検討する。
論文 参考訳(メタデータ) (2021-07-28T05:18:10Z) - Capturing scattered discriminative information using a deep architecture
in acoustic scene classification [49.86640645460706]
本研究では,識別情報を捕捉し,同時に過度に適合する問題を緩和する様々な手法について検討する。
我々は、ディープニューラルネットワークにおける従来の非線形アクティベーションを置き換えるために、Max Feature Map法を採用する。
2つのデータ拡張方法と2つの深いアーキテクチャモジュールは、システムの過度な適合を減らし、差別的なパワーを維持するためにさらに検討されている。
論文 参考訳(メタデータ) (2020-07-09T08:32:06Z) - Investigating Class-level Difficulty Factors in Multi-label
Classification Problems [23.51529285126783]
本研究は,マルチラベル分類問題におけるクラスレベルの難易度因子の利用を初めて検討する。
周波数、視覚的変化、セマンティック抽象化、クラス共起の4つの困難因子が提案されている。
これらの困難因子は、データセット間でのクラスレベルのパフォーマンスの予測など、いくつかの潜在的な応用があることが示されている。
論文 参考訳(メタデータ) (2020-05-01T15:06:53Z) - Long-Tailed Recognition Using Class-Balanced Experts [128.73438243408393]
本稿では,多様な分類器の強度を組み合わせたクラスバランスの専門家のアンサンブルを提案する。
私たちのクラスバランスの専門家のアンサンブルは、最先端に近い結果に到達し、長い尾の認識のための2つのベンチマークで新たな最先端のアンサンブルを確立します。
論文 参考訳(メタデータ) (2020-04-07T20:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。