論文の概要: Balancing the Scales: A Comprehensive Study on Tackling Class Imbalance in Binary Classification
- arxiv url: http://arxiv.org/abs/2409.19751v1
- Date: Sun, 29 Sep 2024 16:02:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:07:53.513797
- Title: Balancing the Scales: A Comprehensive Study on Tackling Class Imbalance in Binary Classification
- Title(参考訳): 尺度のバランスをとる:二項分類におけるクラス不均衡への対処に関する総合的研究
- Authors: Mohamed Abdelhamid, Abhyuday Desai,
- Abstract要約: 本研究は、クラス不均衡を扱うために広く利用されている3つの戦略を包括的に評価する。
これらの手法を、15種類の機械学習モデルにまたがる非干渉のベースラインシナリオと比較する。
以上の結果から,3つの戦略がすべてベースラインを上回り,決定閾値が最も一貫して有効な手法として出現することが示唆された。
- 参考スコア(独自算出の注目度): 0.8287206589886881
- License:
- Abstract: Class imbalance in binary classification tasks remains a significant challenge in machine learning, often resulting in poor performance on minority classes. This study comprehensively evaluates three widely-used strategies for handling class imbalance: Synthetic Minority Over-sampling Technique (SMOTE), Class Weights tuning, and Decision Threshold Calibration. We compare these methods against a baseline scenario of no-intervention across 15 diverse machine learning models and 30 datasets from various domains, conducting a total of 9,000 experiments. Performance was primarily assessed using the F1-score, although our study also tracked results on additional 9 metrics including F2-score, precision, recall, Brier-score, PR-AUC, and AUC. Our results indicate that all three strategies generally outperform the baseline, with Decision Threshold Calibration emerging as the most consistently effective technique. However, we observed substantial variability in the best-performing method across datasets, highlighting the importance of testing multiple approaches for specific problems. This study provides valuable insights for practitioners dealing with imbalanced datasets and emphasizes the need for dataset-specific analysis in evaluating class imbalance handling techniques.
- Abstract(参考訳): 二項分類タスクにおけるクラス不均衡は、機械学習において重要な課題であり、しばしば少数クラスのパフォーマンスが低下する。
本研究では,SMOTE(Synthetic Minority Over-Sampling Technique),SMOTE(Class Weights tuning),Decision Threshold Calibration(Decision Threshold Calibration)の3つの手法を網羅的に評価した。
これらの手法を、15の多様な機械学習モデルと、さまざまなドメインからの30のデータセットにまたがる非干渉のベースラインシナリオと比較し、合計9000の実験を行った。
F1スコア, 精度, リコール, Brier-score, PR-AUC, AUCの計9項目について, 評価を行った。
以上の結果から,3つの戦略がベースラインを上回り,決定閾値キャリブレーションが一貫した有効手法として出現することが示唆された。
しかし,データセット間でのベストパフォーマンス手法では,特定の問題に対する複数のアプローチをテストすることの重要性が強調され,大きなばらつきが見られた。
本研究は、不均衡なデータセットを扱う実践者にとって貴重な洞察を提供し、クラス不均衡処理手法を評価する際に、データセット固有の分析の必要性を強調する。
関連論文リスト
- Bias Mitigating Few-Shot Class-Incremental Learning [17.185744533050116]
クラス増分学習は,限定された新規クラスサンプルを用いて,新規クラスを継続的に認識することを目的としている。
最近の手法では,段階的なセッションで特徴抽出器を微調整することにより,ベースクラスとインクリメンタルクラスの精度の不均衡を緩和している。
本研究では,FSCIL問題におけるモデルバイアスを緩和する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-01T10:37:41Z) - Latent Alignment with Deep Set EEG Decoders [44.128689862889715]
本稿では,脳波伝達学習大会のベンチマークで優勝した潜在アライメント手法を紹介する。
我々は,その定式化を,与えられた被験者の試行セットに適用したディープセットとして提示する。
実験の結果,深層学習モデルにおける後段の統計的分布アライメントの実行は,分類精度に有益であることが示唆された。
論文 参考訳(メタデータ) (2023-11-29T12:40:45Z) - A Unified Generalization Analysis of Re-Weighting and Logit-Adjustment
for Imbalanced Learning [129.63326990812234]
そこで本研究では,データ依存型コンダクタンス(Data-dependent contraction)と呼ばれる手法を提案する。
この技術に加えて、不均衡学習のための微粒な一般化境界が確立され、再重み付けとロジット調整の謎を明らかにするのに役立つ。
論文 参考訳(メタデータ) (2023-10-07T09:15:08Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Class-Imbalanced Complementary-Label Learning via Weighted Loss [8.934943507699131]
補完ラベル学習(Complementary-label Learning, CLL)は、弱い教師付き分類において広く用いられている。
クラス不均衡のトレーニングサンプルに直面すると、現実世界のデータセットでは大きな課題に直面します。
多クラス分類のためのクラス不均衡補完ラベルからの学習を可能にする新しい問題設定を提案する。
論文 参考訳(メタデータ) (2022-09-28T16:02:42Z) - An Empirical Analysis of the Efficacy of Different Sampling Techniques
for Imbalanced Classification [0.0]
実世界のデータセットにおける不均衡の頻度は、クラス不均衡問題に対する様々な戦略の創出につながっている。
標準分類アルゴリズムは、不均衡なデータで訓練された場合、性能が良くない傾向にある。
そこで本研究では,26種類のサンプリング手法を網羅的に分析し,不均衡なデータを扱う上での有効性について考察する。
論文 参考訳(メタデータ) (2022-08-25T03:45:34Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Learning with Multiclass AUC: Theory and Algorithms [141.63211412386283]
ROC曲線 (AUC) の下の領域は、不均衡学習やレコメンダシステムといった問題に対するよく知られたランキング基準である。
本稿では,マルチクラスAUCメトリクスを最適化することで,多クラススコアリング関数を学習する問題について検討する。
論文 参考訳(メタデータ) (2021-07-28T05:18:10Z) - Combined Cleaning and Resampling Algorithm for Multi-Class Imbalanced
Data with Label Noise [11.868507571027626]
本稿では,新しいオーバーサンプリング手法であるマルチクラス・コンバインド・クリーニングとリサンプリングのアルゴリズムを提案する。
提案手法は, オーバーサンプリングに適した領域をモデル化するためのエネルギーベース手法を用いて, SMOTEよりも小さな解離や外れ値の影響を受けない。
重なり合うクラス分布が学習アルゴリズムの性能に与える影響を低減することを目的として, 同時クリーニング操作と組み合わせた。
論文 参考訳(メタデータ) (2020-04-07T13:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。