論文の概要: Convex space learning improves deep-generative oversampling for tabular
imbalanced classification on smaller datasets
- arxiv url: http://arxiv.org/abs/2206.09812v1
- Date: Mon, 20 Jun 2022 14:42:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-25 09:40:24.406609
- Title: Convex space learning improves deep-generative oversampling for tabular
imbalanced classification on smaller datasets
- Title(参考訳): convex space learningは、より小さなデータセットにおける表型不均衡分類のディープジェネレーションオーバーサンプリングを改善する
- Authors: Kristian Schultz, Saptarshi Bej, Waldemar Hahn, Markus Wolfien,
Prashant Srivastava, Olaf Wolkenhauer
- Abstract要約: 既存の深部生成モデルは,少数クラスの凸空間から合成サンプルを生成する線形アプローチと比較して性能が低いことを示す。
本研究では,凸空間学習と深部生成モデルを組み合わせた深部生成モデルConvGeNを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data is commonly stored in tabular format. Several fields of research (e.g.,
biomedical, fault/fraud detection), are prone to small imbalanced tabular data.
Supervised Machine Learning on such data is often difficult due to class
imbalance, adding further to the challenge. Synthetic data generation i.e.
oversampling is a common remedy used to improve classifier performance.
State-of-the-art linear interpolation approaches, such as LoRAS and ProWRAS can
be used to generate synthetic samples from the convex space of the minority
class to improve classifier performance in such cases. Generative Adversarial
Networks (GANs) are common deep learning approaches for synthetic sample
generation. Although GANs are widely used for synthetic image generation, their
scope on tabular data in the context of imbalanced classification is not
adequately explored. In this article, we show that existing deep generative
models perform poorly compared to linear interpolation approaches generating
synthetic samples from the convex space of the minority class, for imbalanced
classification problems on tabular datasets of small size. We propose a deep
generative model, ConvGeN combining the idea of convex space learning and deep
generative models. ConVGeN learns the coefficients for the convex combinations
of the minority class samples, such that the synthetic data is distinct enough
from the majority class. We demonstrate that our proposed model ConvGeN
improves imbalanced classification on such small datasets, as compared to
existing deep generative models while being at par with the existing linear
interpolation approaches. Moreover, we discuss how our model can be used for
synthetic tabular data generation in general, even outside the scope of data
imbalance, and thus, improves the overall applicability of convex space
learning.
- Abstract(参考訳): データは一般に表形式で格納される。
いくつかの研究分野(バイオメディカル、フォールト/フルート検出など)は、小さな不均衡な表データに弱い。
このようなデータで機械学習を監督することは、クラスの不均衡のためにしばしば困難であり、さらに課題に加わる。
合成データ生成、すなわちオーバーサンプリングは、分類器の性能向上に使用される一般的な治療法である。
LoRASやProWRASのような最先端の線形補間手法は、マイノリティクラスの凸空間から合成サンプルを生成して、そのような場合の分類器の性能を向上させることができる。
generative adversarial network (gans) は、合成サンプル生成のための一般的なディープラーニングアプローチである。
GANは合成画像生成に広く用いられているが、不均衡な分類の文脈における表データのスコープは十分に調査されていない。
本稿では,小規模の表型データセットにおける不均衡分類問題に対して,マイノリティクラスの凸空間から合成サンプルを生成する線形補間法と比較して,既存の深層生成モデルでは性能が劣ることを示す。
本稿では,凸空間学習の概念と深部生成モデルを組み合わせた深部生成モデルを提案する。
ConVGeNは、少数クラスのサンプルの凸結合の係数を学習し、合成データが多数派と十分に異なるようにする。
提案したモデルであるConvGeNは,既存の線形補間手法と同等でありながら,既存の深部生成モデルと比較して,そのような小さなデータセットの不均衡な分類を改善することを実証する。
さらに,データ不均衡の範囲外であっても,合成表データ生成にモデルをどのように利用するかについて議論し,凸空間学習の全体的適用性を改善する。
関連論文リスト
- Synthetic Tabular Data Generation for Class Imbalance and Fairness: A Comparative Study [4.420073761023326]
データ駆動性のため、機械学習(ML)モデルは、データから受け継がれたバイアスの影響を受けやすい。
クラス不均衡(分類対象)とグループ不均衡(性や人種のような保護された属性)はMLの有用性と公平性を損なう可能性がある。
本稿では、最先端モデルを用いて、クラスとグループの不均衡に対処する比較分析を行う。
論文 参考訳(メタデータ) (2024-09-08T20:08:09Z) - Convex space learning for tabular synthetic data generation [0.0]
本稿では,合成サンプルを生成可能なジェネレータと識別器コンポーネントを備えたディープラーニングアーキテクチャを提案する。
NextConvGeNが生成した合成サンプルは、実データと合成データの分類とクラスタリング性能をよりよく保存することができる。
論文 参考訳(メタデータ) (2024-07-13T07:07:35Z) - Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡なデータと急激な相関は、機械学習とデータサイエンスにおける一般的な課題である。
過度に表現されていないクラスのインスタンス数を人工的に増加させるオーバーサンプリングは、これらの課題に対処するために広く採用されている。
我々は,大規模言語モデルの能力を活用して,少数グループを対象とした高品質な合成データを生成する,体系的なオーバーサンプリング手法であるOPALを紹介する。
論文 参考訳(メタデータ) (2024-06-05T21:24:26Z) - Improving SMOTE via Fusing Conditional VAE for Data-adaptive Noise Filtering [0.5735035463793009]
変分オートエンコーダ(VAE)を用いたSMOTEアルゴリズムの拡張フレームワークを提案する。
本稿では,VAEを用いて低次元潜在空間におけるデータ点密度を体系的に定量化し,クラスラベル情報と分類困難度を同時に統合する手法を提案する。
いくつかの不均衡データセットに関する実証的研究は、この単純なプロセスが、ディープラーニングモデルよりも従来のSMOTEアルゴリズムを革新的に改善することを示している。
論文 参考訳(メタデータ) (2024-05-30T07:06:02Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Imbalanced Classification via a Tabular Translation GAN [4.864819846886142]
本稿では,多数のサンプルを対応する合成マイノリティ標本にマッピングするために,新たな正規化損失を用いたジェネレーティブ・アドバイサル・ネットワークに基づくモデルを提案する。
提案手法は, 再加重法やオーバーサンプリング法と比較して, 平均精度を向上することを示す。
論文 参考訳(メタデータ) (2022-04-19T06:02:53Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。