論文の概要: iHHO-SMOTe: A Cleansed Approach for Handling Outliers and Reducing Noise to Improve Imbalanced Data Classification
- arxiv url: http://arxiv.org/abs/2504.12850v1
- Date: Thu, 17 Apr 2025 11:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:36:04.093565
- Title: iHHO-SMOTe: A Cleansed Approach for Handling Outliers and Reducing Noise to Improve Imbalanced Data Classification
- Title(参考訳): iHHO-SMOTe:不均衡データ分類を改善するために、アウトレーヤの処理とノイズ低減のためのクリーンなアプローチ
- Authors: Khaled SH. Raslan, Almohammady S. Alsharkawy, K. R. Raslan,
- Abstract要約: 不均衡データセットの分類は、マシンラーニングにおいて依然として大きな課題である。
SMOTE(Synthetic Minority Over-Sampling Technique)は、表現不足のマイノリティクラスのための新しいインスタンスを生成する。
提案手法であるiHHO-SMOTeは,まずノイズ点からデータを浄化することにより,SMOTEの限界に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Classifying imbalanced datasets remains a significant challenge in machine learning, particularly with big data where instances are unevenly distributed among classes, leading to class imbalance issues that impact classifier performance. While Synthetic Minority Over-sampling Technique (SMOTE) addresses this challenge by generating new instances for the under-represented minority class, it faces obstacles in the form of noise and outliers during the creation of new samples. In this paper, a proposed approach, iHHO-SMOTe, which addresses the limitations of SMOTE by first cleansing the data from noise points. This process involves employing feature selection using a random forest to identify the most valuable features, followed by applying the Density-Based Spatial Clustering of Applications with Noise (DBSCAN) algorithm to detect outliers based on the selected features. The identified outliers from the minority classes are then removed, creating a refined dataset for subsequent oversampling using the hybrid approach called iHHO-SMOTe. The comprehensive experiments across diverse datasets demonstrate the exceptional performance of the proposed model, with an AUC score exceeding 0.99, a high G-means score of 0.99 highlighting its robustness, and an outstanding F1-score consistently exceeding 0.967. These findings collectively establish Cleansed iHHO-SMOTe as a formidable contender in addressing imbalanced datasets, focusing on noise reduction and outlier handling for improved classification models.
- Abstract(参考訳): 不均衡データセットの分類は、マシンラーニングにおいて重要な課題であり、特に、インスタンスがクラス間で不均一に分散されているビッグデータでは、分類器のパフォーマンスに影響を及ぼすクラス不均衡の問題が発生している。
Synthetic Minority Over-Sampling Technique (SMOTE)は、表現不足のマイノリティクラスの新しいインスタンスを生成することで、この課題に対処するが、新しいサンプルを作成する際に、ノイズや外れ値という形で障害に直面している。
本稿では,SMOTEの限界に対処する手法iHHO-SMOTeを提案する。
このプロセスは、最も価値のある特徴を特定するためにランダムフォレストを使用して特徴選択を行ない、次に、選択した特徴に基づいて外れ値を検出するために、密度に基づくSpatial Clustering of Applications (DBSCAN)アルゴリズムを適用する。
マイノリティクラスから特定されたアウトリーチは削除され、iHHO-SMOTeと呼ばれるハイブリッドアプローチを使用して、後続のオーバーサンプリングのための洗練されたデータセットが生成される。
AUCスコアは0.99以上、G平均スコアは0.99以上、F1スコアは0.967以上である。
これらの結果は,不均衡なデータセットに対処する上で,難易度の高い候補としてクリーン化されたiHHO-SMOTeを総合的に確立し,改良された分類モデルに対するノイズ低減とアウトリー処理に着目した。
関連論文リスト
- Neighbor displacement-based enhanced synthetic oversampling for multiclass imbalanced data [0.0]
不均衡なマルチクラスデータセットは、機械学習アルゴリズムに課題を提起する。
既存のメソッドはまだスパースデータに悩まされており、元のデータパターンを正確に表現していない可能性がある。
本稿では,NDESO(Nighbor Displacement-based Enhanced Synthetic Oversampling)と呼ばれるハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2025-01-07T19:15:00Z) - ANNE: Adaptive Nearest Neighbors and Eigenvector-based Sample Selection for Robust Learning with Noisy Labels [7.897299759691143]
本稿では,Adaptive Nearest Neighbors and Eigenvector-based sample selection methodを紹介する。
ANNEは、損失に基づくサンプリングとFINEとAdaptive KNNを統合し、幅広いノイズレートシナリオのパフォーマンスを最適化する。
論文 参考訳(メタデータ) (2024-11-03T15:51:38Z) - A Bilevel Optimization Framework for Imbalanced Data Classification [1.6385815610837167]
合成データによるノイズや重なりの落とし穴を回避する新しいアンダーサンプリング手法を提案する。
多数データをランダムにアンサンプするのではなく、モデル損失を改善する能力に基づいてデータポイントをアンアンサンプする。
本手法は,モデル損失の改善を指標として,データポイントが損失に与える影響を評価し,それを改善することができない者を拒絶する。
論文 参考訳(メタデータ) (2024-10-15T01:17:23Z) - Robust Learning under Hybrid Noise [24.36707245704713]
本稿では,データリカバリの観点からハイブリッドノイズに対処するため,新たな統合学習フレームワーク"Feature and Label Recovery"(FLR)を提案する。
論文 参考訳(メタデータ) (2024-07-04T16:13:25Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - SMOTified-GAN for class imbalanced pattern classification problems [0.41998444721319217]
本稿では,SMOTEとGANの相乗効果を持つ2相オーバーサンプリング手法を提案する。
実験の結果,様々なベンチマークデータセットにおいて,マイノリティクラス(es)のサンプル品質が向上していることが証明された。
論文 参考訳(メタデータ) (2021-08-06T06:14:05Z) - Noise-resistant Deep Metric Learning with Ranking-based Instance
Selection [59.286567680389766]
PRISM(Probabilistic Ranking-based Instance Selection with Memory)と呼ばれるDMLの耐騒音トレーニング技術を提案する。
PRISMは、ニューラルネットワークの以前のバージョンから抽出された画像特徴との平均的類似性を用いて、ミニバッチ内のノイズデータを識別する。
メモリバンクが生み出す高い計算コストを緩和するために,個々のデータポイントをクラスセンタに置き換える高速化手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T03:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。