論文の概要: Conditional Wasserstein GAN-based Oversampling of Tabular Data for
Imbalanced Learning
- arxiv url: http://arxiv.org/abs/2008.09202v1
- Date: Thu, 20 Aug 2020 20:33:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 04:00:51.060687
- Title: Conditional Wasserstein GAN-based Oversampling of Tabular Data for
Imbalanced Learning
- Title(参考訳): 条件付きWasserstein GANに基づく不均衡学習のためのタブラリデータのオーバーサンプリング
- Authors: Justin Engelmann, Stefan Lessmann
- Abstract要約: 本稿では,条件付きWasserstein GANに基づくオーバーサンプリング手法を提案する。
実世界の7つのデータセット上で,標準的なオーバーサンプリング手法と不均衡なベースラインに対して,本手法をベンチマークした。
- 参考スコア(独自算出の注目度): 10.051309746913512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Class imbalance is a common problem in supervised learning and impedes the
predictive performance of classification models. Popular countermeasures
include oversampling the minority class. Standard methods like SMOTE rely on
finding nearest neighbours and linear interpolations which are problematic in
case of high-dimensional, complex data distributions. Generative Adversarial
Networks (GANs) have been proposed as an alternative method for generating
artificial minority examples as they can model complex distributions. However,
prior research on GAN-based oversampling does not incorporate recent
advancements from the literature on generating realistic tabular data with
GANs. Previous studies also focus on numerical variables whereas categorical
features are common in many business applications of classification methods
such as credit scoring. The paper propoes an oversampling method based on a
conditional Wasserstein GAN that can effectively model tabular datasets with
numerical and categorical variables and pays special attention to the
down-stream classification task through an auxiliary classifier loss. We
benchmark our method against standard oversampling methods and the imbalanced
baseline on seven real-world datasets. Empirical results evidence the
competitiveness of GAN-based oversampling.
- Abstract(参考訳): クラス不均衡は教師付き学習において一般的な問題であり、分類モデルの予測性能を妨げる。
主な対策として、少数民族の過小評価がある。
SMOTEのような標準的な手法は、高次元の複雑なデータ分布の場合に問題となる最も近い近傍や線形補間を見つけることに依存する。
GAN(Generative Adversarial Networks)は、複雑な分布をモデル化可能な人工少数例を生成する代替手法として提案されている。
しかし, GANをベースとしたオーバーサンプリングに関する先行研究は, GANを用いたリアルな表形式データの生成に関する文献の最近の進歩を取り入れていない。
以前の研究は数値変数にも焦点を当てているが、分類学的特徴はクレジットスコアリングのような分類法の多くのビジネス応用で一般的である。
本論文は,数式および分類変数を用いた表型データセットを効果的にモデル化し,補助分類器損失による下流分類タスクに特に注意を払う条件付きWasserstein GANに基づくオーバーサンプリング手法を提案する。
実世界の7つのデータセットの標準オーバーサンプリング手法と不均衡ベースラインに対して,本手法をベンチマークした。
実証的な結果は、GANに基づくオーバーサンプリングの競争力を示している。
関連論文リスト
- Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Generative Oversampling for Imbalanced Data via Majority-Guided VAE [15.93867386081279]
本稿では,多数派の指導のもと,新たなマイノリティサンプルを生成する,Majority-Guided VAE(MGVAE)と呼ばれる新しいオーバーサンプリングモデルを提案する。
このようにして、新しく生成されたマイノリティサンプルは、大多数のサンプルの多様性と豊かさを継承することができ、下流タスクにおける過度な適合を軽減できる。
論文 参考訳(メタデータ) (2023-02-14T06:35:23Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - Imbalanced Classification via a Tabular Translation GAN [4.864819846886142]
本稿では,多数のサンプルを対応する合成マイノリティ標本にマッピングするために,新たな正規化損失を用いたジェネレーティブ・アドバイサル・ネットワークに基づくモデルを提案する。
提案手法は, 再加重法やオーバーサンプリング法と比較して, 平均精度を向上することを示す。
論文 参考訳(メタデータ) (2022-04-19T06:02:53Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - IB-GAN: A Unified Approach for Multivariate Time Series Classification
under Class Imbalance [1.854931308524932]
GAN(Generative Adversarial Networks)による非パラメトリックデータ拡張は、有望なソリューションを提供する。
本稿では,データ拡張と分類を1段階のプロセスで結合する新しい手法であるImputation Balanced GAN(IB-GAN)を提案する。
論文 参考訳(メタデータ) (2021-10-14T15:31:16Z) - Does Adversarial Oversampling Help us? [10.210871872870737]
本稿では,データセットのクラス不均衡を処理するために,3人のプレイヤーによるゲームベースのエンドツーエンド手法を提案する。
本稿では,敵対的マイノリティ・オーバーサンプリングではなく,敵対的オーバーサンプリング (AO) とデータ空間・オーバーサンプリング (DO) のアプローチを提案する。
提案手法の有効性を高次元・高不均衡・大規模マルチクラスデータセットを用いて検証した。
論文 参考訳(メタデータ) (2021-08-20T05:43:17Z) - A Novel Adaptive Minority Oversampling Technique for Improved
Classification in Data Imbalanced Scenarios [23.257891827728827]
異なるクラスに属するトレーニングサンプルの割合の不均衡は、しばしば従来の分類器の性能低下を引き起こす。
不均衡なデータに対処する新しい3ステップ手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T09:58:02Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。