論文の概要: A Novel Hybrid Sampling Framework for Imbalanced Learning
- arxiv url: http://arxiv.org/abs/2208.09619v1
- Date: Sat, 20 Aug 2022 07:04:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 12:29:41.673832
- Title: A Novel Hybrid Sampling Framework for Imbalanced Learning
- Title(参考訳): 不均衡学習のための新しいハイブリッドサンプリングフレームワーク
- Authors: Asif Newaz, Farhan Shahriyar Haq
- Abstract要約: SMOTE-RUS-NC」は他の最先端サンプリング技術と比較されている。
26個の不均衡なデータセットで厳密な実験が行われた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Class imbalance is a frequently occurring scenario in classification tasks.
Learning from imbalanced data poses a major challenge, which has instigated a
lot of research in this area. Data preprocessing using sampling techniques is a
standard approach to deal with the imbalance present in the data. Since
standard classification algorithms do not perform well on imbalanced data, the
dataset needs to be adequately balanced before training. This can be
accomplished by oversampling the minority class or undersampling the majority
class. In this study, a novel hybrid sampling algorithm has been proposed. To
overcome the limitations of the sampling techniques while ensuring the quality
of the retained sampled dataset, a sophisticated framework has been developed
to properly combine three different sampling techniques. Neighborhood Cleaning
rule is first applied to reduce the imbalance. Random undersampling is then
strategically coupled with the SMOTE algorithm to obtain an optimal balance in
the dataset. This proposed hybrid methodology, termed "SMOTE-RUS-NC", has been
compared with other state-of-the-art sampling techniques. The strategy is
further incorporated into the ensemble learning framework to obtain a more
robust classification algorithm, termed "SRN-BRF". Rigorous experimentation has
been conducted on 26 imbalanced datasets with varying degrees of imbalance. In
virtually all datasets, the proposed two algorithms outperformed existing
sampling strategies, in many cases by a substantial margin. Especially in
highly imbalanced datasets where popular sampling techniques failed utterly,
they achieved unparalleled performance. The superior results obtained
demonstrate the efficacy of the proposed models and their potential to be
powerful sampling algorithms in imbalanced domain.
- Abstract(参考訳): クラス不均衡は分類タスクにおいて頻繁に発生するシナリオである。
不均衡なデータから学ぶことは大きな課題となり、この分野で多くの研究が進められている。
サンプリング技術を用いたデータの前処理は、データに存在する不均衡に対処する標準的なアプローチである。
標準的な分類アルゴリズムは不均衡なデータではうまく動作しないため、データセットはトレーニング前に適切にバランスを取る必要がある。
これは少数派をオーバーサンプリングするか、多数派をアンサンプすることで達成できる。
本研究では,新しいハイブリッドサンプリングアルゴリズムを提案する。
保持されたサンプルデータセットの品質を確保しつつ,サンプリング手法の限界を克服するために,3つの異なるサンプリング手法を適切に組み合わせた高度なフレームワークを開発した。
最初に近所の清掃規則を適用して不均衡を低減させる。
ランダムアンダーサンプリングはSMOTEアルゴリズムと戦略的に結合され、データセットの最適なバランスを得る。
この手法は「SMOTE-RUS-NC」と呼ばれ、他の最先端サンプリング手法と比較されている。
この戦略は、より堅牢な分類アルゴリズム「SRN-BRF」を得るために、アンサンブル学習フレームワークにさらに組み込まれている。
不均衡の程度が異なる26の不均衡データセットで厳密な実験が行われた。
事実上全てのデータセットにおいて、提案された2つのアルゴリズムは既存のサンプリング戦略よりも優れている。
特に、一般的なサンプリング技術が完全に失敗する高度に不均衡なデータセットでは、非並列のパフォーマンスを達成した。
その結果, 提案モデルの有効性と, 不均衡領域における強力なサンプリングアルゴリズムの可能性が示された。
関連論文リスト
- A Bilevel Optimization Framework for Imbalanced Data Classification [1.6385815610837167]
合成データによるノイズや重なりの落とし穴を回避する新しいアンダーサンプリング手法を提案する。
多数データをランダムにアンサンプするのではなく、モデル損失を改善する能力に基づいてデータポイントをアンアンサンプする。
本手法は,モデル損失の改善を指標として,データポイントが損失に与える影響を評価し,それを改善することができない者を拒絶する。
論文 参考訳(メタデータ) (2024-10-15T01:17:23Z) - iBRF: Improved Balanced Random Forest Classifier [0.0]
クラス不均衡は、異なる分類タスクにおいて大きな課題となる。
本稿では,予測性能を高めるために,バランスドランダムフォレスト(BRF)分類器の修正を提案する。
筆者らが提案するハイブリッドサンプリング手法は,ランダムフォレスト分類器のフレームワークに組み込むと,不均衡な分類タスクに使用される他のサンプリング手法よりも優れた予測性能が得られる。
論文 参考訳(メタデータ) (2024-03-14T20:59:36Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Generalized Oversampling for Learning from Imbalanced datasets and
Associated Theory [0.0]
教師あり学習では、実際の不均衡なデータセットに直面することが多い。
本稿では,カーネル密度推定に基づくデータ拡張手法であるGOLIATHアルゴリズムを提案する。
我々は,不均衡な回帰状況下でのGOLIATHアルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-08-05T23:08:08Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - A Novel Adaptive Minority Oversampling Technique for Improved
Classification in Data Imbalanced Scenarios [23.257891827728827]
異なるクラスに属するトレーニングサンプルの割合の不均衡は、しばしば従来の分類器の性能低下を引き起こす。
不均衡なデータに対処する新しい3ステップ手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T09:58:02Z) - Handling Imbalanced Data: A Case Study for Binary Class Problems [0.0]
分類問題の解決における主要な問題は、不均衡データの問題である。
本稿では,合成オーバーサンプリング技術と手動で合成データポイントを計算することで,アルゴリズムの理解を深める。
我々は,これらの合成オーバーサンプリング手法を,不均衡比とサンプルサイズが異なる二項分類問題に適用する。
論文 参考訳(メタデータ) (2020-10-09T02:04:14Z) - Distribution Aligning Refinery of Pseudo-label for Imbalanced
Semi-supervised Learning [126.31716228319902]
Pseudo-label (DARP) アルゴリズムの分散アライメント・リファナリーを開発する。
DARPは最先端のSSLスキームと有効かつ効率的に互換性があることを示す。
論文 参考訳(メタデータ) (2020-07-17T09:16:05Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。