論文の概要: Stop Oversampling for Class Imbalance Learning: A Critical Review
- arxiv url: http://arxiv.org/abs/2202.03579v1
- Date: Fri, 4 Feb 2022 15:11:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-13 21:02:11.333995
- Title: Stop Oversampling for Class Imbalance Learning: A Critical Review
- Title(参考訳): クラス不均衡学習のためのオーバーサンプリングをやめる - 批判的レビュー
- Authors: Ahmad B. Hassanat, Ahmad S. Tarawneh, Ghada A. Altarawneh
- Abstract要約: オーバーサンプリングは、不均衡なデータセットから学ぶことの難しさを克服するために採用されている。
オーバーサンプリングアプローチの根本的な難しさは、実生個体数を考えると、合成標本が真のマイノリティクラスに属していないことである。
我々は,多数のサンプルを隠蔽し,オーバーサンプリングプロセスによって生成されたものと比較し,新しいオーバーサンプリング評価システムを開発した。
- 参考スコア(独自算出の注目度): 0.9208007322096533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For the last two decades, oversampling has been employed to overcome the
challenge of learning from imbalanced datasets. Many approaches to solving this
challenge have been offered in the literature. Oversampling, on the other hand,
is a concern. That is, models trained on fictitious data may fail spectacularly
when put to real-world problems. The fundamental difficulty with oversampling
approaches is that, given a real-life population, the synthesized samples may
not truly belong to the minority class. As a result, training a classifier on
these samples while pretending they represent minority may result in incorrect
predictions when the model is used in the real world. We analyzed a large
number of oversampling methods in this paper and devised a new oversampling
evaluation system based on hiding a number of majority examples and comparing
them to those generated by the oversampling process. Based on our evaluation
system, we ranked all these methods based on their incorrectly generated
examples for comparison. Our experiments using more than 70 oversampling
methods and three imbalanced real-world datasets reveal that all oversampling
methods studied generate minority samples that are most likely to be majority.
Given data and methods in hand, we argue that oversampling in its current forms
and methodologies is unreliable for learning from class imbalanced data and
should be avoided in real-world applications.
- Abstract(参考訳): 過去20年間、不均衡なデータセットから学ぶという課題を克服するために、オーバーサンプリングが用いられてきた。
この課題を解決する多くのアプローチが文献に提示されている。
一方、オーバーサンプリングは懸念事項である。
つまり、架空のデータに基づいてトレーニングされたモデルは、現実世界の問題に当てはまると劇的に失敗する可能性がある。
オーバーサンプリングアプローチの根本的な難しさは、実生個体数を考えると、合成標本が真のマイノリティクラスに属していないことである。
結果として、これらのサンプルをマイノリティを表すふりをして分類器を訓練すると、モデルが現実世界で使われているときに誤った予測が生じる可能性がある。
本稿では,多数のオーバーサンプリング手法を分析し,多数のサンプルを隠蔽し,オーバーサンプリングプロセスによって生成されたものと比較した新しいオーバーサンプリング評価システムを考案した。
評価システムに基づいて,これらすべての手法を,不正に生成された比較例に基づいて分類した。
70以上のオーバーサンプリング手法と3つの非バランスな実世界のデータセットを用いた実験により、調査されたオーバーサンプリング手法が多数派である可能性が最も高いマイノリティサンプルを生成することが明らかとなった。
データや手法が手元にある場合、クラス不均衡データから学習するにはオーバーサンプリングが信頼できないため、現実世界のアプリケーションでは避けるべきである。
関連論文リスト
- Efficient Hybrid Oversampling and Intelligent Undersampling for
Imbalanced Big Data Classification [1.03590082373586]
本稿では,MapReduceフレームワークを用いて,インテリジェントアンダーサンプリングとオーバーサンプリングを組み合わせたSMOTENNという新しいリサンプリング手法を提案する。
実験の結果,この手法の利点が示され,小規模・中規模のデータセットに対する代替サンプリング技術よりも優れていた。
論文 参考訳(メタデータ) (2023-10-09T15:22:13Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Generative Oversampling for Imbalanced Data via Majority-Guided VAE [15.93867386081279]
本稿では,多数派の指導のもと,新たなマイノリティサンプルを生成する,Majority-Guided VAE(MGVAE)と呼ばれる新しいオーバーサンプリングモデルを提案する。
このようにして、新しく生成されたマイノリティサンプルは、大多数のサンプルの多様性と豊かさを継承することができ、下流タスクにおける過度な適合を軽減できる。
論文 参考訳(メタデータ) (2023-02-14T06:35:23Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - HardVis: Visual Analytics to Handle Instance Hardness Using Undersampling and Oversampling Techniques [48.82319198853359]
HardVisは、主に不均衡な分類シナリオでインスタンスの硬さを処理するために設計されたビジュアル分析システムである。
ユーザはさまざまな視点からデータのサブセットを探索して、これらのパラメータをすべて決定できる。
HardVisの有効性と有効性は仮説的利用シナリオとユースケースで実証される。
論文 参考訳(メタデータ) (2022-03-29T17:04:16Z) - Does Adversarial Oversampling Help us? [10.210871872870737]
本稿では,データセットのクラス不均衡を処理するために,3人のプレイヤーによるゲームベースのエンドツーエンド手法を提案する。
本稿では,敵対的マイノリティ・オーバーサンプリングではなく,敵対的オーバーサンプリング (AO) とデータ空間・オーバーサンプリング (DO) のアプローチを提案する。
提案手法の有効性を高次元・高不均衡・大規模マルチクラスデータセットを用いて検証した。
論文 参考訳(メタデータ) (2021-08-20T05:43:17Z) - Contrastive Learning with Hard Negative Samples [80.12117639845678]
我々は, 厳密な陰性サンプルを選択するために, 教師なしサンプリング手法を新たに開発する。
このサンプリングの制限ケースは、各クラスをしっかりとクラスタ化し、可能な限り異なるクラスを遠くにプッシュする表現をもたらす。
提案手法は、複数のモードをまたいだダウンストリーム性能を改善し、実装するコード行数が少なく、計算オーバーヘッドを伴わない。
論文 参考訳(メタデータ) (2020-10-09T14:18:53Z) - Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:09:08Z) - Minority Class Oversampling for Tabular Data with Deep Generative Models [4.976007156860967]
オーバーサンプリングによる非バランスな分類タスクの性能向上を図るために, 深層生成モデルを用いて現実的なサンプルを提供する能力について検討した。
実験の結果,サンプリング手法は品質に影響を与えないが,実行環境は様々であることがわかった。
また、性能指標の点でも改善が重要であるが、絶対的な点では小さな点がしばしば見られる。
論文 参考訳(メタデータ) (2020-05-07T21:35:57Z) - M2m: Imbalanced Classification via Major-to-minor Translation [79.09018382489506]
ほとんどの実世界のシナリオでは、ラベル付きトレーニングデータセットは非常にクラス不均衡であり、ディープニューラルネットワークは、バランスの取れたテスト基準への一般化に苦しむ。
本稿では,より頻度の低いクラスを,より頻度の低いクラスからのサンプルを翻訳することによって,この問題を緩和する新しい方法を提案する。
提案手法は,従来の再サンプリング法や再重み付け法と比較して,マイノリティクラスの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-04-01T13:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。