論文の概要: LSH-DynED: A Dynamic Ensemble Framework with LSH-Based Undersampling for Evolving Multi-Class Imbalanced Classification
- arxiv url: http://arxiv.org/abs/2506.20041v1
- Date: Tue, 24 Jun 2025 22:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.550036
- Title: LSH-DynED: A Dynamic Ensemble Framework with LSH-Based Undersampling for Evolving Multi-Class Imbalanced Classification
- Title(参考訳): LSH-Dyned:マルチクラス不均衡分類の進化のためのLSHに基づくアンダーサンプリングを用いた動的アンサンブルフレームワーク
- Authors: Soheil Abadifard, Fazli Can,
- Abstract要約: この研究は、これらの課題に対処するための、新しく、堅牢で、レジリエントなアプローチを紹介します。
Locality Sensitive Hashing と Random Hyperplane Projections (LSH-RHP) を Dynamic Ensemble Diversification (DynED) フレームワークに統合する。
我々は23の現実世界と10の半合成データセットに関する総合的な実験を行い、LSH-DynEDと15の最先端の手法を比較した。
- 参考スコア(独自算出の注目度): 3.360922672565235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The classification of imbalanced data streams, which have unequal class distributions, is a key difficulty in machine learning, especially when dealing with multiple classes. While binary imbalanced data stream classification tasks have received considerable attention, only a few studies have focused on multi-class imbalanced data streams. Effectively managing the dynamic imbalance ratio is a key challenge in this domain. This study introduces a novel, robust, and resilient approach to address these challenges by integrating Locality Sensitive Hashing with Random Hyperplane Projections (LSH-RHP) into the Dynamic Ensemble Diversification (DynED) framework. To the best of our knowledge, we present the first application of LSH-RHP for undersampling in the context of imbalanced non-stationary data streams. The proposed method undersamples the majority classes by utilizing LSH-RHP, provides a balanced training set, and improves the ensemble's prediction performance. We conduct comprehensive experiments on 23 real-world and ten semi-synthetic datasets and compare LSH-DynED with 15 state-of-the-art methods. The results reveal that LSH-DynED outperforms other approaches in terms of both Kappa and mG-Mean effectiveness measures, demonstrating its capability in dealing with multi-class imbalanced non-stationary data streams. Notably, LSH-DynED performs well in large-scale, high-dimensional datasets with considerable class imbalances and demonstrates adaptation and robustness in real-world circumstances. To motivate our design, we review existing methods for imbalanced data streams, outline key challenges, and offer guidance for future work. For the reproducibility of our results, we have made our implementation available on GitHub.
- Abstract(参考訳): 不均衡なクラス分布を持つ不均衡なデータストリームの分類は、特に複数のクラスを扱う場合、機械学習において重要な困難である。
バイナリ不均衡データストリーム分類タスクは注目されているが、マルチクラスの不均衡データストリームに焦点を当てた研究はほとんどない。
この領域では、動的不均衡比を効果的に管理することが重要な課題である。
本研究では,LSH-RHP(Locality Sensitive Hashing with Random Hyperplane Projections)を動的アンサンブル多様化(Dynamic Ensemble Diversification, DynED)フレームワークに統合することにより,これらの課題に対処する新しい,堅牢でレジリエントなアプローチを提案する。
我々の知る限り、不均衡な非定常データストリームの文脈におけるアンダーサンプリングのためのLSH-RHPの最初の応用を提示する。
提案手法は,LSH-RHPを用いて多数クラスをアンサンブルし,バランスの取れたトレーニングセットを提供し,アンサンブルの予測性能を向上させる。
我々は23の現実世界と10の半合成データセットに関する総合的な実験を行い、LSH-DynEDと15の最先端の手法を比較した。
その結果、LSH-DynEDは、KappaとmG-Meanの有効性の両面で他の手法よりも優れており、マルチクラスの非定常データストリームを扱う能力を示している。
特に、LSH-DynEDは、クラス不均衡がかなり大きい大規模で高次元のデータセットでよく機能し、実世界の状況において適応性と堅牢性を示す。
我々の設計を動機づけるため、不均衡なデータストリームの既存の手法をレビューし、主要な課題を概説し、今後の作業のためのガイダンスを提供します。
結果の再現性のために、私たちは実装をGitHubで利用可能にしました。
関連論文リスト
- SeMi: When Imbalanced Semi-Supervised Learning Meets Mining Hard Examples [54.760757107700755]
Semi-Supervised Learning (SSL)は、豊富なラベルのないデータを活用して、モデルのパフォーマンスを向上させる。
実世界のシナリオにおけるクラス不均衡なデータ分散は、SSLに大きな課題をもたらし、結果としてパフォーマンスが低下する。
マイニングハードケース(SeMi)による不均衡半教師学習の性能向上手法を提案する。
論文 参考訳(メタデータ) (2025-01-10T14:35:16Z) - Conformal-in-the-Loop for Learning with Imbalanced Noisy Data [5.69777817429044]
大規模なデータセットでは、クラス不均衡とラベルノイズが広まっています。
機械学習の研究の多くは、よくラベル付けされたバランスの取れたデータを前提としている。
コンフォーマル・イン・ザ・ループ(Conformal-in-the-Loop, CitL)は,コンフォーマルな予測に基づく手法を用いて,両課題に対処する新しいトレーニングフレームワークである。
論文 参考訳(メタデータ) (2024-11-04T17:09:58Z) - Gradient Reweighting: Towards Imbalanced Class-Incremental Learning [8.438092346233054]
CIL(Class-Incremental Learning)は、非定常データから新しいクラスを継続的に認識するためにモデルを訓練する。
CILの大きな課題は、非一様分布を特徴とする実世界のデータに適用する場合である。
この二重不均衡問題により、FC層に偏りのある勾配更新が生じ、CILの過度/過度な適合と破滅的な忘れが引き起こされる。
論文 参考訳(メタデータ) (2024-02-28T18:08:03Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - On the Trade-off of Intra-/Inter-class Diversity for Supervised
Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。
トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文 参考訳(メタデータ) (2023-05-20T16:23:50Z) - An Embarrassingly Simple Baseline for Imbalanced Semi-Supervised
Learning [103.65758569417702]
半教師付き学習(SSL)は、ラベルのないデータを活用してモデルのパフォーマンスを向上させるという大きな約束を示している。
我々は、ラベル付きデータとラベルなしデータの両方で不均衡なクラス分散が発生する不均衡SSLという、より現実的で困難な設定について検討する。
我々は、ラベル付きデータを擬似ラベルで単純に補うことで、データの不均衡に取り組む単純なベースライン、SimiSについて研究する。
論文 参考訳(メタデータ) (2022-11-20T21:18:41Z) - Mitigating Dataset Imbalance via Joint Generation and Classification [17.57577266707809]
教師付きディープラーニング手法は、コンピュータビジョンの多くの実践的応用において大きな成功を収めている。
バイアスや不均衡データに対する顕著な性能劣化は、これらの手法の信頼性に疑問を投げかける。
ニューラルネットワーク分類器とGAN(Generative Adversarial Networks)を組み合わせた共同データセット修復戦略を提案する。
重度のクラス不均衡に対する分類器とGANの堅牢性向上に寄与することを示す。
論文 参考訳(メタデータ) (2020-08-12T18:40:38Z) - Long-Tailed Recognition Using Class-Balanced Experts [128.73438243408393]
本稿では,多様な分類器の強度を組み合わせたクラスバランスの専門家のアンサンブルを提案する。
私たちのクラスバランスの専門家のアンサンブルは、最先端に近い結果に到達し、長い尾の認識のための2つのベンチマークで新たな最先端のアンサンブルを確立します。
論文 参考訳(メタデータ) (2020-04-07T20:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。