論文の概要: An Empirical Study on the Joint Impact of Feature Selection and Data
Resampling on Imbalance Classification
- arxiv url: http://arxiv.org/abs/2109.00201v1
- Date: Wed, 1 Sep 2021 06:01:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 14:32:58.453699
- Title: An Empirical Study on the Joint Impact of Feature Selection and Data
Resampling on Imbalance Classification
- Title(参考訳): 特徴選択とデータ再サンプリングが不均衡分類に及ぼす影響に関する実証的研究
- Authors: Chongsheng Zhang, Paolo Soda, Jingjun Bi, Gaojuan Fan, George
Almpanidis, Salvador Garcia
- Abstract要約: 本研究では,不均衡分類のための特徴選択とデータ再サンプリングの相乗性に着目した。
9つの特徴選択手法、クラス不均衡学習のための6つの再サンプリング手法、および3つのよく知られた分類アルゴリズムを用いて、52の公開データセットに対して多数の実験を行った。
- 参考スコア(独自算出の注目度): 4.506770920842088
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Real-world datasets often present different degrees of imbalanced (i.e.,
long-tailed or skewed) distributions. While the majority (a.k.a., head or
frequent) classes have sufficient samples, the minority (a.k.a., tail or rare)
classes can be under-represented by a rather limited number of samples. On one
hand, data resampling is a common approach to tackling class imbalance. On the
other hand, dimension reduction, which reduces the feature space, is a
conventional machine learning technique for building stronger classification
models on a dataset. However, the possible synergy between feature selection
and data resampling for high-performance imbalance classification has rarely
been investigated before. To address this issue, this paper carries out a
comprehensive empirical study on the joint influence of feature selection and
resampling on two-class imbalance classification. Specifically, we study the
performance of two opposite pipelines for imbalance classification, i.e.,
applying feature selection before or after data resampling. We conduct a large
amount of experiments (a total of 9225 experiments) on 52 publicly available
datasets, using 9 feature selection methods, 6 resampling approaches for class
imbalance learning, and 3 well-known classification algorithms. Experimental
results show that there is no constant winner between the two pipelines, thus
both of them should be considered to derive the best performing model for
imbalance classification. We also find that the performance of an imbalance
classification model depends on the classifier adopted, the ratio between the
number of majority and minority samples (IR), as well as on the ratio between
the number of samples and features (SFR). Overall, this study should provide
new reference value for researchers and practitioners in imbalance learning.
- Abstract(参考訳): 実世界のデータセットは、しばしば異なる等級の不均衡(長尾または歪んだ)の分布を示す。
多数派(頭または頻繁)のクラスには十分なサンプルがあるが、少数派(尾または稀)のクラスは、かなり限られた数のサンプルで表される。
一方、データ再サンプリングはクラス不均衡に取り組む一般的なアプローチである。
一方、特徴空間を縮小する次元削減は、データセット上でより強力な分類モデルを構築するための従来の機械学習手法である。
しかし,高性能不均衡分類のための特徴選択とデータ再サンプリングの相乗効果は,これまでほとんど研究されていなかった。
そこで本稿では,特徴選択と再サンプリングが二クラス不均衡分類に与える影響について,総合的研究を行った。
具体的には,データ再サンプリング前後に特徴選択を適用し,不均衡分類のための2つの逆パイプラインの性能について検討する。
9つの特徴選択法,6つの再サンプリング手法によるクラス不均衡学習,3つのよく知られた分類アルゴリズムを用いて,52のデータセット上で,膨大な実験(合計9225の実験)を行った。
実験結果から,2つのパイプラインの間に一定の勝者が存在しないことが明らかとなった。
また,不均衡分類モデルの性能は,採用した分類器,多数サンプル数と少数サンプル数(ir)の比率,およびサンプル数と特徴数の比率(sfr)に依存することがわかった。
全体として、この研究は、不均衡学習における研究者や実践者に新しい基準価値を提供するべきである。
関連論文リスト
- When resampling/reweighting improves feature learning in imbalanced classification?: A toy-model study [5.5730368125641405]
クラス不均衡の存在下での特徴学習性能に対するクラスワイドリサンプリング/リウェイト効果を明らかにすることを目的とした二分分類のおもちゃモデルについて検討した。
その結果,再サンプリング/再重み付けの状況が,損失や分類器の選択に関係なく,最高の特徴学習性能を与えるケースが存在することがわかった。
論文 参考訳(メタデータ) (2024-09-09T13:31:00Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Balanced Classification: A Unified Framework for Long-Tailed Object
Detection [74.94216414011326]
従来の検出器は、分類バイアスによる長期データを扱う際の性能劣化に悩まされる。
本稿では,カテゴリ分布の格差に起因する不平等の適応的是正を可能にする,BAlanced CLassification (BACL) と呼ばれる統一フレームワークを提案する。
BACLは、さまざまなバックボーンとアーキテクチャを持つさまざまなデータセット間で、一貫してパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-08-04T09:11:07Z) - Delving into Semantic Scale Imbalance [45.30062061215943]
クラスの特徴的多様性を測定するために使用されるクラスの意味的スケールを定義し,定量化する。
本稿では、一般的な損失改善スキームと動的再重み付けトレーニングフレームワークを含む意味尺度バランス学習を提案する。
総合的な実験により、動的セマンティック・スケール・バランス・ラーニングにより、大規模で長い尾を持つ非長い尾を持つ自然および医学的なデータセットにおいて、モデルが優れたパフォーマンスを発揮することが示されている。
論文 参考訳(メタデータ) (2022-12-30T09:40:09Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Divide-and-Conquer Hard-thresholding Rules in High-dimensional
Imbalanced Classification [1.0312968200748118]
高次元の線形判別分析(LDA)における不均衡クラスサイズの影響について検討した。
マイノリティ・クラスと呼ばれる1つのクラスのデータの不足により、LDAはマイノリティ・クラスを無視し、最大誤分類率を得ることを示す。
そこで本研究では,不等式化率の大きな差を低減させる分割・対数法に基づくハードコンカレンスルールの新たな構成法を提案する。
論文 参考訳(メタデータ) (2021-11-05T07:44:28Z) - Statistical Theory for Imbalanced Binary Classification [8.93993657323783]
最適分類性能は、これまで形式化されていなかったクラス不均衡の特定の性質に依存することを示す。
具体的には、一様クラス不均衡と呼ばれる新しいクラス不均衡のサブタイプを提案する。
これらの結果は、不均衡二項分類に対する最初の有意義な有限サンプル統計理論のいくつかを提供する。
論文 参考訳(メタデータ) (2021-07-05T03:55:43Z) - Long-Tailed Recognition Using Class-Balanced Experts [128.73438243408393]
本稿では,多様な分類器の強度を組み合わせたクラスバランスの専門家のアンサンブルを提案する。
私たちのクラスバランスの専門家のアンサンブルは、最先端に近い結果に到達し、長い尾の認識のための2つのベンチマークで新たな最先端のアンサンブルを確立します。
論文 参考訳(メタデータ) (2020-04-07T20:57:44Z) - Imbalanced Data Learning by Minority Class Augmentation using Capsule
Adversarial Networks [31.073558420480964]
本稿では,2つの同時手法を合体させて,不均衡な画像のバランスを回復する手法を提案する。
我々のモデルでは、生成的および識別的ネットワークは、新しい競争力のあるゲームをする。
カプセルGANの合体は、畳み込みGANと比較して非常に少ないパラメータで重なり合うクラスを認識するのに効果的である。
論文 参考訳(メタデータ) (2020-04-05T12:36:06Z) - M2m: Imbalanced Classification via Major-to-minor Translation [79.09018382489506]
ほとんどの実世界のシナリオでは、ラベル付きトレーニングデータセットは非常にクラス不均衡であり、ディープニューラルネットワークは、バランスの取れたテスト基準への一般化に苦しむ。
本稿では,より頻度の低いクラスを,より頻度の低いクラスからのサンプルを翻訳することによって,この問題を緩和する新しい方法を提案する。
提案手法は,従来の再サンプリング法や再重み付け法と比較して,マイノリティクラスの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-04-01T13:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。