論文の概要: Synthetic Tabular Data Generation for Imbalanced Classification: The Surprising Effectiveness of an Overlap Class
- arxiv url: http://arxiv.org/abs/2412.15657v2
- Date: Wed, 19 Feb 2025 15:36:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:55:57.356474
- Title: Synthetic Tabular Data Generation for Imbalanced Classification: The Surprising Effectiveness of an Overlap Class
- Title(参考訳): 不均衡分類のための合成語彙データ生成:オーバーラップクラスの有効性について
- Authors: Annie D'souza, Swetha M, Sunita Sarawagi,
- Abstract要約: 最先端の深部生成モデルでは, 多数例よりも極めて低品質な少数例が得られている。
本稿では,少数分布と多数分布が重複する領域のクラスを導入することで,二進分類ラベルを三進分類ラベルに変換する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 20.606333546028516
- License:
- Abstract: Handling imbalance in class distribution when building a classifier over tabular data has been a problem of long-standing interest. One popular approach is augmenting the training dataset with synthetically generated data. While classical augmentation techniques were limited to linear interpolation of existing minority class examples, recently higher capacity deep generative models are providing greater promise. However, handling of imbalance in class distribution when building a deep generative model is also a challenging problem, that has not been studied as extensively as imbalanced classifier model training. We show that state-of-the-art deep generative models yield significantly lower-quality minority examples than majority examples. %In this paper, we start with the observation that imbalanced data training of generative models trained imbalanced dataset which under-represent the minority class. We propose a novel technique of converting the binary class labels to ternary class labels by introducing a class for the region where minority and majority distributions overlap. We show that just this pre-processing of the training set, significantly improves the quality of data generated spanning several state-of-the-art diffusion and GAN-based models. While training the classifier using synthetic data, we remove the overlap class from the training data and justify the reasons behind the enhanced accuracy. We perform extensive experiments on four real-life datasets, five different classifiers, and five generative models demonstrating that our method enhances not only the synthesizer performance of state-of-the-art models but also the classifier performance.
- Abstract(参考訳): 表型データ上で分類器を構築する際にクラス分布の不均衡を扱うことは、長年の関心事である。
一般的なアプローチの1つは、合成生成されたデータによるトレーニングデータセットの強化である。
古典的な拡張技術は、既存のマイノリティクラスの例の線形補間に限られていたが、近年はより高い容量の深層生成モデルの方が、より有望である。
しかし, 深層生成モデル構築時のクラス分布の不均衡の処理も困難な問題であり, 不均衡型分類器モデルトレーニングほど広く研究されていない。
最先端の深部生成モデルでは, 多数例よりも極めて低品質な少数例が得られている。
%) では, マイノリティクラスを下位に表現する不均衡データセットを訓練した生成モデルの不均衡データトレーニングから始める。
本稿では,少数分布と多数分布が重複する領域のクラスを導入することで,二進分類ラベルを三進分類ラベルに変換する新しい手法を提案する。
トレーニングセットのこの前処理だけで、複数の最先端拡散モデルとGANベースのモデルにまたがるデータの品質が大幅に向上することを示す。
合成データを用いて分類器を訓練する際、訓練データから重なり合うクラスを除去し、強化された精度の背景にある理由を正当化する。
我々は,4つの実生活データセット,5つの異なる分類器,および5つの生成モデルに対して広範な実験を行い,本手法が最先端モデルの合成性能だけでなく,分類器の性能も向上することを示した。
関連論文リスト
- Covariance-based Space Regularization for Few-shot Class Incremental Learning [25.435192867105552]
FSCIL(Few-shot Class Incremental Learning)では,ラベル付きデータに制限のあるクラスを継続的に学習する必要がある。
インクリメンタルセッションにおける限られたデータのため、モデルは新しいクラスを過度に適合させ、ベースクラスの破滅的な忘れを苦しむ傾向にある。
最近の進歩は、基本クラス分布を制約し、新しいクラスの識別的表現を学習するプロトタイプベースのアプローチに頼っている。
論文 参考訳(メタデータ) (2024-11-02T08:03:04Z) - Improving Fairness and Mitigating MADness in Generative Models [21.024727486615646]
我々は、意図的に設計されたハイパーネットワークで生成モデルをトレーニングすると、マイノリティクラスに属するデータポイントを生成する際により公平なモデルが得られることを示す。
本稿では,実データと自己合成データとの差分を正規化する手法を提案する。
論文 参考訳(メタデータ) (2024-05-22T20:24:41Z) - Class-Balancing Diffusion Models [57.38599989220613]
クラスバランシング拡散モデル(CBDM)は、分散調整正規化器をソリューションとして訓練する。
提案手法は,CIFAR100/CIFAR100LTデータセットで生成結果をベンチマークし,下流認識タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-30T20:00:14Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Throwing Away Data Improves Worst-Class Error in Imbalanced
Classification [36.91428748713018]
クラス不均衡は分類問題に悪影響を及ぼすが、その治療は理論と実践において異なる。
本稿では,線形分離可能なデータに対する分類器の誤りを記述できる学習理論の開発に挑戦する。
論文 参考訳(メタデータ) (2022-05-23T23:43:18Z) - Generative Modeling Helps Weak Supervision (and Vice Versa) [87.62271390571837]
本稿では,弱い監督と生成的敵ネットワークを融合したモデルを提案する。
弱い監督によるラベル推定と並行して、データの離散変数をキャプチャする。
これは、弱い教師付き合成画像と擬似ラベルによるデータ拡張を可能にする最初のアプローチである。
論文 参考訳(メタデータ) (2022-03-22T20:24:21Z) - Imbalanced Classification via Explicit Gradient Learning From Augmented
Data [0.0]
本稿では、与えられた不均衡なデータセットを新しいマイノリティインスタンスに拡張する、新しい深層メタラーニング手法を提案する。
提案手法の利点は, 種々の不均衡比を持つ合成および実世界のデータセット上で実証される。
論文 参考訳(メタデータ) (2022-02-21T22:16:50Z) - Class Balancing GAN with a Classifier in the Loop [58.29090045399214]
本稿では,GANを学習するための理論的動機付けクラスバランス正則化器を提案する。
我々の正規化器は、訓練済みの分類器からの知識を利用して、データセット内のすべてのクラスのバランスの取れた学習を確実にします。
複数のデータセットにまたがる既存手法よりも優れた性能を達成し,長期分布の学習表現における正規化器の有用性を実証する。
論文 参考訳(メタデータ) (2021-06-17T11:41:30Z) - Long-Tailed Recognition Using Class-Balanced Experts [128.73438243408393]
本稿では,多様な分類器の強度を組み合わせたクラスバランスの専門家のアンサンブルを提案する。
私たちのクラスバランスの専門家のアンサンブルは、最先端に近い結果に到達し、長い尾の認識のための2つのベンチマークで新たな最先端のアンサンブルを確立します。
論文 参考訳(メタデータ) (2020-04-07T20:57:44Z) - Imbalanced Data Learning by Minority Class Augmentation using Capsule
Adversarial Networks [31.073558420480964]
本稿では,2つの同時手法を合体させて,不均衡な画像のバランスを回復する手法を提案する。
我々のモデルでは、生成的および識別的ネットワークは、新しい競争力のあるゲームをする。
カプセルGANの合体は、畳み込みGANと比較して非常に少ないパラメータで重なり合うクラスを認識するのに効果的である。
論文 参考訳(メタデータ) (2020-04-05T12:36:06Z) - M2m: Imbalanced Classification via Major-to-minor Translation [79.09018382489506]
ほとんどの実世界のシナリオでは、ラベル付きトレーニングデータセットは非常にクラス不均衡であり、ディープニューラルネットワークは、バランスの取れたテスト基準への一般化に苦しむ。
本稿では,より頻度の低いクラスを,より頻度の低いクラスからのサンプルを翻訳することによって,この問題を緩和する新しい方法を提案する。
提案手法は,従来の再サンプリング法や再重み付け法と比較して,マイノリティクラスの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-04-01T13:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。