論文の概要: Minority Class Oversampling for Tabular Data with Deep Generative Models
- arxiv url: http://arxiv.org/abs/2005.03773v2
- Date: Mon, 20 Jul 2020 13:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 22:49:04.795832
- Title: Minority Class Oversampling for Tabular Data with Deep Generative Models
- Title(参考訳): 深部生成モデルを用いた語彙データのマイノリティクラスオーバーサンプリング
- Authors: Ramiro Camino, Christian Hammerschmidt, Radu State
- Abstract要約: オーバーサンプリングによる非バランスな分類タスクの性能向上を図るために, 深層生成モデルを用いて現実的なサンプルを提供する能力について検討した。
実験の結果,サンプリング手法は品質に影響を与えないが,実行環境は様々であることがわかった。
また、性能指標の点でも改善が重要であるが、絶対的な点では小さな点がしばしば見られる。
- 参考スコア(独自算出の注目度): 4.976007156860967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In practice, machine learning experts are often confronted with imbalanced
data. Without accounting for the imbalance, common classifiers perform poorly
and standard evaluation metrics mislead the practitioners on the model's
performance. A common method to treat imbalanced datasets is under- and
oversampling. In this process, samples are either removed from the majority
class or synthetic samples are added to the minority class. In this paper, we
follow up on recent developments in deep learning. We take proposals of deep
generative models, including our own, and study the ability of these approaches
to provide realistic samples that improve performance on imbalanced
classification tasks via oversampling.
Across 160K+ experiments, we show that all of the new methods tend to perform
better than simple baseline methods such as SMOTE, but require different under-
and oversampling ratios to do so. Our experiments show that the way the method
of sampling does not affect quality, but runtime varies widely. We also observe
that the improvements in terms of performance metric, while shown to be
significant when ranking the methods, often are minor in absolute terms,
especially compared to the required effort. Furthermore, we notice that a large
part of the improvement is due to undersampling, not oversampling. We make our
code and testing framework available.
- Abstract(参考訳): 実際、機械学習の専門家は、しばしば不均衡なデータに直面します。
不均衡を考慮せずに、一般的な分類器は性能が悪く、標準評価基準はモデルのパフォーマンスを実践者に誤解させる。
不均衡なデータセットを扱う一般的な方法はアンダーサンプリングとオーバーサンプリングである。
このプロセスでは、サンプルが多数派クラスから削除されるか、少数派クラスに合成サンプルを追加する。
本稿では,近年の深層学習の発展について述べる。
筆者らは, 自己を含む深層生成モデルの提案を行い, オーバーサンプリングによる非バランスな分類タスクの性能向上を図るために, これらの手法の有効性について検討する。
160k以上の実験で、新しい手法はすべてsmoteのような単純なベースラインメソッドよりもパフォーマンスが良い傾向を示した。
実験の結果,サンプリング手法は品質に影響を与えないが,実行環境は様々であることがわかった。
また、性能指標の点でも、メソッドのランク付けにおいて重要であるが、特に必要な労力と比較して、絶対的な用語では小さいことがよく見られる。
さらに,改善の大部分はオーバーサンプリングではなく,オーバーサンプリングによるものであることも分かりました。
コードとテストフレームワークを利用可能にします。
関連論文リスト
- Generative Oversampling for Imbalanced Data via Majority-Guided VAE [15.93867386081279]
本稿では,多数派の指導のもと,新たなマイノリティサンプルを生成する,Majority-Guided VAE(MGVAE)と呼ばれる新しいオーバーサンプリングモデルを提案する。
このようにして、新しく生成されたマイノリティサンプルは、大多数のサンプルの多様性と豊かさを継承することができ、下流タスクにおける過度な適合を軽減できる。
論文 参考訳(メタデータ) (2023-02-14T06:35:23Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - HardVis: Visual Analytics to Handle Instance Hardness Using Undersampling and Oversampling Techniques [48.82319198853359]
HardVisは、主に不均衡な分類シナリオでインスタンスの硬さを処理するために設計されたビジュアル分析システムである。
ユーザはさまざまな視点からデータのサブセットを探索して、これらのパラメータをすべて決定できる。
HardVisの有効性と有効性は仮説的利用シナリオとユースケースで実証される。
論文 参考訳(メタデータ) (2022-03-29T17:04:16Z) - Stop Oversampling for Class Imbalance Learning: A Critical Review [0.9208007322096533]
オーバーサンプリングは、不均衡なデータセットから学ぶことの難しさを克服するために採用されている。
オーバーサンプリングアプローチの根本的な難しさは、実生個体数を考えると、合成標本が真のマイノリティクラスに属していないことである。
我々は,多数のサンプルを隠蔽し,オーバーサンプリングプロセスによって生成されたものと比較し,新しいオーバーサンプリング評価システムを開発した。
論文 参考訳(メタデータ) (2022-02-04T15:11:11Z) - A Novel Adaptive Minority Oversampling Technique for Improved
Classification in Data Imbalanced Scenarios [23.257891827728827]
異なるクラスに属するトレーニングサンプルの割合の不均衡は、しばしば従来の分類器の性能低下を引き起こす。
不均衡なデータに対処する新しい3ステップ手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T09:58:02Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z) - Doubly Contrastive Deep Clustering [135.7001508427597]
本稿では、サンプルビューとクラスビューの両方でコントラスト損失を構築する新しい二重コントラストディープクラスタリング(DCDC)フレームワークを紹介します。
具体的には、サンプルビューに対して、元のサンプルとその拡張バージョンのクラス分布を正のサンプルペアとして設定する。
クラスビューでは、クラスのサンプル分布から正のペアと負のペアを構築します。
このように、2つのコントラスト損失は、サンプルとクラスレベルでのミニバッチサンプルのクラスタリング結果をうまく制限します。
論文 参考訳(メタデータ) (2021-03-09T15:15:32Z) - M2m: Imbalanced Classification via Major-to-minor Translation [79.09018382489506]
ほとんどの実世界のシナリオでは、ラベル付きトレーニングデータセットは非常にクラス不均衡であり、ディープニューラルネットワークは、バランスの取れたテスト基準への一般化に苦しむ。
本稿では,より頻度の低いクラスを,より頻度の低いクラスからのサンプルを翻訳することによって,この問題を緩和する新しい方法を提案する。
提案手法は,従来の再サンプリング法や再重み付け法と比較して,マイノリティクラスの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-04-01T13:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。