論文の概要: An Empirical Analysis of the Efficacy of Different Sampling Techniques
for Imbalanced Classification
- arxiv url: http://arxiv.org/abs/2208.11852v1
- Date: Thu, 25 Aug 2022 03:45:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:42:50.081161
- Title: An Empirical Analysis of the Efficacy of Different Sampling Techniques
for Imbalanced Classification
- Title(参考訳): 不均衡分類における異なるサンプリング手法の有効性に関する実証分析
- Authors: Asif Newaz, Shahriar Hassan, Farhan Shahriyar Haq
- Abstract要約: 実世界のデータセットにおける不均衡の頻度は、クラス不均衡問題に対する様々な戦略の創出につながっている。
標準分類アルゴリズムは、不均衡なデータで訓練された場合、性能が良くない傾向にある。
そこで本研究では,26種類のサンプリング手法を網羅的に分析し,不均衡なデータを扱う上での有効性について考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning from imbalanced data is a challenging task. Standard classification
algorithms tend to perform poorly when trained on imbalanced data. Some special
strategies need to be adopted, either by modifying the data distribution or by
redesigning the underlying classification algorithm to achieve desirable
performance. The prevalence of imbalance in real-world datasets has led to the
creation of a multitude of strategies for the class imbalance issue. However,
not all the strategies are useful or provide good performance in different
imbalance scenarios. There are numerous approaches to dealing with imbalanced
data, but the efficacy of such techniques or an experimental comparison among
those techniques has not been conducted. In this study, we present a
comprehensive analysis of 26 popular sampling techniques to understand their
effectiveness in dealing with imbalanced data. Rigorous experiments have been
conducted on 50 datasets with different degrees of imbalance to thoroughly
investigate the performance of these techniques. A detailed discussion of the
advantages and limitations of the techniques, as well as how to overcome such
limitations, has been presented. We identify some critical factors that affect
the sampling strategies and provide recommendations on how to choose an
appropriate sampling technique for a particular application.
- Abstract(参考訳): 不均衡なデータから学ぶことは難しい課題です。
標準分類アルゴリズムは、不均衡なデータでトレーニングされた場合、性能が悪い傾向がある。
データ分散を変更するか、望ましいパフォーマンスを達成するために基礎となる分類アルゴリズムを再設計することで、いくつかの特別な戦略を採用する必要がある。
現実世界のデータセットにおける不均衡の発生は、クラス不均衡問題に対する多数の戦略の作成につながった。
しかしながら、すべての戦略が有用あるいは異なる不均衡シナリオで優れたパフォーマンスを提供するわけではない。
不均衡なデータを扱うためのアプローチは数多く存在するが、これらの技法の有効性や実験的な比較は行われていない。
本研究では,26種類の一般的なサンプリング手法を包括的に分析し,不均衡データに対するその効果について考察する。
これらの技術の性能を徹底的に調査するため、50のデータセットに対して異なる不均衡度を持つ厳密な実験が行われた。
テクニックの利点と限界に関する詳細な議論と、そのような制限を克服する方法が提示されている。
サンプリング戦略に影響を与えるいくつかの重要な要因を特定し、特定のアプリケーションに対して適切なサンプリング手法を選択する方法を推奨する。
関連論文リスト
- Balancing the Scales: A Comprehensive Study on Tackling Class Imbalance in Binary Classification [0.8287206589886881]
本研究は、クラス不均衡を扱うために広く利用されている3つの戦略を包括的に評価する。
これらの手法を、15種類の機械学習モデルにまたがる非干渉のベースラインシナリオと比較する。
以上の結果から,3つの戦略がすべてベースラインを上回り,決定閾値が最も一貫して有効な手法として出現することが示唆された。
論文 参考訳(メタデータ) (2024-09-29T16:02:32Z) - Few-shot learning for COVID-19 Chest X-Ray Classification with
Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。
データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。
本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T16:59:27Z) - A Unified Generalization Analysis of Re-Weighting and Logit-Adjustment
for Imbalanced Learning [129.63326990812234]
そこで本研究では,データ依存型コンダクタンス(Data-dependent contraction)と呼ばれる手法を提案する。
この技術に加えて、不均衡学習のための微粒な一般化境界が確立され、再重み付けとロジット調整の謎を明らかにするのに役立つ。
論文 参考訳(メタデータ) (2023-10-07T09:15:08Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - A survey on learning from imbalanced data streams: taxonomy, challenges,
empirical study, and reproducible experimental framework [12.856833690265985]
クラス不均衡は、データストリームの分類に関して、新たな課題を引き起こす。
この論文で最近提案された多くのアルゴリズムは、様々なデータレベル、アルゴリズムレベル、アンサンブルアプローチを用いてこの問題に対処している。
この研究は、アルゴリズムを評価するための標準化された、徹底的で包括的な実験フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T20:13:55Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Imbalanced data preprocessing techniques utilizing local data
characteristics [2.28438857884398]
データ不均衡は、異なるクラスから来るトレーニング観察の数の間の不均衡である。
この論文の焦点は、新しいデータ再サンプリング戦略の開発である。
論文 参考訳(メタデータ) (2021-11-28T11:48:26Z) - Influence-Balanced Loss for Imbalanced Visual Classification [9.958715010698157]
我々は、バランスの取れたトレーニングフェーズで使われる新たな損失を導き、過度に適合した決定境界の原因となるサンプルの影響を軽減する。
複数のベンチマークデータセットの実験において,提案手法の有効性を実証し,提案手法の損失が最先端のコスト感受性損失法より優れていることを示す。
論文 参考訳(メタデータ) (2021-10-06T01:12:40Z) - Handling Imbalanced Data: A Case Study for Binary Class Problems [0.0]
分類問題の解決における主要な問題は、不均衡データの問題である。
本稿では,合成オーバーサンプリング技術と手動で合成データポイントを計算することで,アルゴリズムの理解を深める。
我々は,これらの合成オーバーサンプリング手法を,不均衡比とサンプルサイズが異なる二項分類問題に適用する。
論文 参考訳(メタデータ) (2020-10-09T02:04:14Z) - Heteroskedastic and Imbalanced Deep Learning with Adaptive
Regularization [55.278153228758434]
実世界のデータセットはヘテロスケダティックで不均衡である。
ヘテロスケダスティック性と不均衡を同時に扱うことは、未発見である。
本稿ではヘテロスケダスティックデータセットに対するデータ依存正規化手法を提案する。
論文 参考訳(メタデータ) (2020-06-29T01:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。