論文の概要: A Survey of Methods for Managing the Classification and Solution of Data
Imbalance Problem
- arxiv url: http://arxiv.org/abs/2012.11870v1
- Date: Tue, 22 Dec 2020 08:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 23:50:41.503176
- Title: A Survey of Methods for Managing the Classification and Solution of Data
Imbalance Problem
- Title(参考訳): データ不均衡問題の分類と解決方法に関する調査研究
- Authors: Khan Md. Hasib, Md. Sadiq Iqbal, Faisal Muhammad Shah, Jubayer Al
Mahmud, Mahmudul Hasan Popel, Md. Imran Hossain Showrov, Shakil Ahmed,
Obaidur Rahman
- Abstract要約: 本稿では,クラス不均衡の問題を解くための機械学習手法における分類出力の改善の現状を理解するために,単一,ハイブリッド,アンサンブル方式設計のアーキテクチャに焦点を当てる。
本論文は,様々な手法および実験条件下での分類アルゴリズムの統計解析や,異なる研究論文で使用されるデータセットも含む。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The problem of class imbalance is extensive for focusing on numerous
applications in the real world. In such a situation, nearly all of the examples
are labeled as one class called majority class, while far fewer examples are
labeled as the other class usually, the more important class is called
minority. Over the last few years, several types of research have been carried
out on the issue of class imbalance, including data sampling, cost-sensitive
analysis, Genetic Programming based models, bagging, boosting, etc.
Nevertheless, in this survey paper, we enlisted the 24 related studies in the
years 2003, 2008, 2010, 2012 and 2014 to 2019, focusing on the architecture of
single, hybrid, and ensemble method design to understand the current status of
improving classification output in machine learning techniques to fix problems
with class imbalances. This survey paper also includes a statistical analysis
of the classification algorithms under various methods and several other
experimental conditions, as well as datasets used in different research papers.
- Abstract(参考訳): クラス不均衡の問題は、現実世界の多くのアプリケーションに焦点を当てるために広範囲に及んでいる。
このような場合、ほとんどすべての例が majority クラスと呼ばれる1つのクラスとしてラベル付けされるが、他のクラスとしてラベル付けされる例は通常より少ないが、より重要なクラスは minor と呼ばれる。
ここ数年、データサンプリング、コスト感受性分析、遺伝的プログラミングに基づくモデル、バッグング、ブースティングなど、クラス不均衡の問題に関するいくつかの研究が実施されてきた。
しかし,本調査では,2003年,2008年,2010年,2012年,2014年と2019年の24つの関連研究を列挙し,単一・ハイブリッド・アンサンブル方式設計のアーキテクチャに着目し,クラス不均衡の問題を解決する機械学習技術における分類出力の改善の現状について考察した。
本調査では,様々な手法による分類アルゴリズムの統計的解析や,いくつかの実験条件,および異なる研究論文で使用されるデータセットについても述べる。
関連論文リスト
- A Survey of Deep Long-Tail Classification Advancements [1.6233132273470656]
実世界の多くのデータ分布は、ほとんど均一ではない。代わりに、様々な種類の歪んだ、長い尾の分布がよく見られる。
これは機械学習にとって興味深い問題であり、ほとんどのアルゴリズムが均一に分散されたデータを想定したり、うまく機能する。
この問題は、大量のトレーニングデータを必要とする現在の最先端のディープラーニングモデルによってさらに悪化している。
論文 参考訳(メタデータ) (2024-04-24T01:59:02Z) - A Survey of Methods for Handling Disk Data Imbalance [10.261915886145214]
本稿では、不均衡データ分類の分野における研究の概要について概観する。
Backblazeデータセットは、ハードディスクに関連する広く使用されているデータセットであり、少量の障害データと大量の健康データを持ち、深刻なクラス不均衡を示す。
論文 参考訳(メタデータ) (2023-10-13T05:35:13Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - A Survey of Methods for Addressing Class Imbalance in Deep-Learning
Based Natural Language Processing [68.37496795076203]
非バランスなデータを扱うNLP研究者や実践者に対してガイダンスを提供する。
まず、制御および実世界のクラス不均衡の様々なタイプについて論じる。
サンプリング,データ拡張,損失関数の選択,ステージ学習,モデル設計に基づく手法を整理する。
論文 参考訳(メタデータ) (2022-10-10T13:26:40Z) - Class-Imbalanced Complementary-Label Learning via Weighted Loss [8.934943507699131]
補完ラベル学習(Complementary-label Learning, CLL)は、弱い教師付き分類において広く用いられている。
クラス不均衡のトレーニングサンプルに直面すると、現実世界のデータセットでは大きな課題に直面します。
多クラス分類のためのクラス不均衡補完ラベルからの学習を可能にする新しい問題設定を提案する。
論文 参考訳(メタデータ) (2022-09-28T16:02:42Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - Long-Tailed Recognition Using Class-Balanced Experts [128.73438243408393]
本稿では,多様な分類器の強度を組み合わせたクラスバランスの専門家のアンサンブルを提案する。
私たちのクラスバランスの専門家のアンサンブルは、最先端に近い結果に到達し、長い尾の認識のための2つのベンチマークで新たな最先端のアンサンブルを確立します。
論文 参考訳(メタデータ) (2020-04-07T20:57:44Z) - M2m: Imbalanced Classification via Major-to-minor Translation [79.09018382489506]
ほとんどの実世界のシナリオでは、ラベル付きトレーニングデータセットは非常にクラス不均衡であり、ディープニューラルネットワークは、バランスの取れたテスト基準への一般化に苦しむ。
本稿では,より頻度の低いクラスを,より頻度の低いクラスからのサンプルを翻訳することによって,この問題を緩和する新しい方法を提案する。
提案手法は,従来の再サンプリング法や再重み付け法と比較して,マイノリティクラスの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-04-01T13:21:17Z) - Imbalanced classification: a paradigm-based review [21.578692329486643]
クラス不均衡問題に対処する複数の再サンプリング手法が提案されている。
それぞれのテクニックをいつ使うかについては、一般的なガイダンスはない。
不均衡なクラスサイズ下でのバイナリ分類のための共通再サンプリング手法をパラダイムベースでレビューする。
論文 参考訳(メタデータ) (2020-02-11T18:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。