論文の概要: Imbalanced classification: a paradigm-based review
- arxiv url: http://arxiv.org/abs/2002.04592v2
- Date: Thu, 1 Jul 2021 02:08:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 02:50:08.382404
- Title: Imbalanced classification: a paradigm-based review
- Title(参考訳): 不均衡分類:パラダイムに基づくレビュー
- Authors: Yang Feng, Min Zhou, Xin Tong
- Abstract要約: クラス不均衡問題に対処する複数の再サンプリング手法が提案されている。
それぞれのテクニックをいつ使うかについては、一般的なガイダンスはない。
不均衡なクラスサイズ下でのバイナリ分類のための共通再サンプリング手法をパラダイムベースでレビューする。
- 参考スコア(独自算出の注目度): 21.578692329486643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common issue for classification in scientific research and industry is the
existence of imbalanced classes. When sample sizes of different classes are
imbalanced in training data, naively implementing a classification method often
leads to unsatisfactory prediction results on test data. Multiple resampling
techniques have been proposed to address the class imbalance issues. Yet, there
is no general guidance on when to use each technique. In this article, we
provide a paradigm-based review of the common resampling techniques for binary
classification under imbalanced class sizes. The paradigms we consider include
the classical paradigm that minimizes the overall classification error, the
cost-sensitive learning paradigm that minimizes a cost-adjusted weighted type I
and type II errors, and the Neyman-Pearson paradigm that minimizes the type II
error subject to a type I error constraint. Under each paradigm, we investigate
the combination of the resampling techniques and a few state-of-the-art
classification methods. For each pair of resampling techniques and
classification methods, we use simulation studies and a real data set on credit
card fraud to study the performance under different evaluation metrics. From
these extensive numerical experiments, we demonstrate under each classification
paradigm, the complex dynamics among resampling techniques, base classification
methods, evaluation metrics, and imbalance ratios. We also summarize a few
takeaway messages regarding the choices of resampling techniques and base
classification methods, which could be helpful for practitioners.
- Abstract(参考訳): 科学研究と産業における分類の一般的な問題は、不均衡なクラスの存在である。
異なるクラスのサンプルサイズがトレーニングデータで不均衡である場合、分類法を生かしてテストデータでの予測結果が不十分になることが多い。
クラス不均衡問題に対処する複数の再サンプリング手法が提案されている。
ただし、各テクニックの使用方法に関する一般的なガイダンスはない。
本稿では,不均衡なクラスサイズ下でのバイナリ分類のための共通再サンプリング手法について,パラダイムに基づくレビューを行う。
私たちが検討するパラダイムには、全体的な分類誤差を最小化する古典的パラダイム、コスト調整された重み付け型IとタイプIIのエラーを最小化するコスト感受性学習パラダイム、タイプIの制約を受けるタイプIIのエラーを最小化するネイマン・ピアソンパラダイムが含まれる。
各パラダイムの下では,再サンプリング手法と最先端の分類手法の組み合わせについて検討する。
再サンプリング手法と分類手法のそれぞれについて,シミュレーション研究とクレジットカード詐欺に関する実データを用いて,評価指標の異なる性能について検討する。
これらの広範な数値実験から,各分類パラダイム,再サンプリング手法の複雑なダイナミクス,基本分類法,評価指標,不均衡比を実証する。
また,リサンプリング手法とベース分類手法の選択に関するメッセージをいくつか要約し,実践者に役立つものと考えられる。
関連論文リスト
- Preview-based Category Contrastive Learning for Knowledge Distillation [53.551002781828146]
知識蒸留(PCKD)のための新しい予見型カテゴリーコントラスト学習法を提案する。
まず、インスタンスレベルの特徴対応と、インスタンスの特徴とカテゴリ中心の関係の両方の構造的知識を蒸留する。
カテゴリ表現を明示的に最適化し、インスタンスとカテゴリの表現を明確に関連付けることができる。
論文 参考訳(メタデータ) (2024-10-18T03:31:00Z) - Observational and Experimental Insights into Machine Learning-Based Defect Classification in Wafers [0.8702432681310399]
本稿では,半導体製造におけるウエハ欠陥の同定に機械学習(ML)分類技術を用いた方法論の総合的なレビューを行う。
提案する方法論の革新的な分類法は、より洗練されたカテゴリと技法にアルゴリズムの詳細な分類を提供する。
論文 参考訳(メタデータ) (2023-10-16T14:46:45Z) - A Unified Generalization Analysis of Re-Weighting and Logit-Adjustment
for Imbalanced Learning [129.63326990812234]
そこで本研究では,データ依存型コンダクタンス(Data-dependent contraction)と呼ばれる手法を提案する。
この技術に加えて、不均衡学習のための微粒な一般化境界が確立され、再重み付けとロジット調整の謎を明らかにするのに役立つ。
論文 参考訳(メタデータ) (2023-10-07T09:15:08Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Learning Acceptance Regions for Many Classes with Anomaly Detection [19.269724165953274]
既存の集合値分類法の多くは、トレーニングデータに現れない新しいクラスがテストデータに現れる可能性を考慮していない。
テストデータに新しいクラスが存在する可能性を考慮しつつ,受入領域を推定する汎用予測セット(GPS)手法を提案する。
従来の手法とは異なり,提案手法は精度,効率,異常検出率のバランスが良好である。
論文 参考訳(メタデータ) (2022-09-20T19:40:33Z) - Multi-class Classification with Fuzzy-feature Observations: Theory and
Algorithms [36.810603503167755]
我々は,MCIMO(Multi-class classification with Imprecise Observation)と呼ばれる新しい現実的問題に対処する新しい枠組みを提案する。
まず,ファジィラデマッハの複雑性に基づくMCIMO問題の理論的解析を行う。
そこで,提案した課題を解決するために,サポートベクタマシンとニューラルネットワークに基づく2つの実用的なアルゴリズムを構築した。
論文 参考訳(メタデータ) (2022-06-09T07:14:00Z) - Binary Classification: Counterbalancing Class Imbalance by Applying
Regression Models in Combination with One-Sided Label Shifts [0.4970364068620607]
クラス不均衡の問題に対処する新しい手法を提案する。
我々は、対応する回帰タスクが均衡するように、負と正の目標ラベルのセットを生成する。
我々は,複数の公開データセットに対するアプローチを評価し,提案手法を最もポピュラーなオーバーサンプリング手法と比較した。
論文 参考訳(メタデータ) (2020-11-30T13:24:47Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - M2m: Imbalanced Classification via Major-to-minor Translation [79.09018382489506]
ほとんどの実世界のシナリオでは、ラベル付きトレーニングデータセットは非常にクラス不均衡であり、ディープニューラルネットワークは、バランスの取れたテスト基準への一般化に苦しむ。
本稿では,より頻度の低いクラスを,より頻度の低いクラスからのサンプルを翻訳することによって,この問題を緩和する新しい方法を提案する。
提案手法は,従来の再サンプリング法や再重み付け法と比較して,マイノリティクラスの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-04-01T13:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。