論文の概要: A Conditional GAN for Tabular Data Generation with Probabilistic Sampling of Latent Subspaces
- arxiv url: http://arxiv.org/abs/2508.00472v1
- Date: Fri, 01 Aug 2025 09:49:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.821434
- Title: A Conditional GAN for Tabular Data Generation with Probabilistic Sampling of Latent Subspaces
- Title(参考訳): 潜在部分空間の確率的サンプリングによる語彙データ生成のための条件付きGAN
- Authors: Leonidas Akritidis, Panayiotis Bozanis,
- Abstract要約: 本稿では,データセットのクラス不均衡を軽減する条件付きGANであるctdGANを提案する。
ctdGANは、入力サンプルにクラスタラベルを割り当てるスペースパーティショニングステップを実行する。
次に、これらのラベルを使用して、新しい確率的サンプリング戦略によってサンプルを合成する。
このように、ctdGANは、元のデータ分布に類似したサブスペースでサンプルを生成するように訓練されている。
- 参考スコア(独自算出の注目度): 3.038642416291856
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The tabular form constitutes the standard way of representing data in relational database systems and spreadsheets. But, similarly to other forms, tabular data suffers from class imbalance, a problem that causes serious performance degradation in a wide variety of machine learning tasks. One of the most effective solutions dictates the usage of Generative Adversarial Networks (GANs) in order to synthesize artificial data instances for the under-represented classes. Despite their good performance, none of the proposed GAN models takes into account the vector subspaces of the input samples in the real data space, leading to data generation in arbitrary locations. Moreover, the class labels are treated in the same manner as the other categorical variables during training, so conditional sampling by class is rendered less effective. To overcome these problems, this study presents ctdGAN, a conditional GAN for alleviating class imbalance in tabular datasets. Initially, ctdGAN executes a space partitioning step to assign cluster labels to the input samples. Subsequently, it utilizes these labels to synthesize samples via a novel probabilistic sampling strategy and a new loss function that penalizes both cluster and class mis-predictions. In this way, ctdGAN is trained to generate samples in subspaces that resemble those of the original data distribution. We also introduce several other improvements, including a simple, yet effective cluster-wise scaling technique that captures multiple feature modes without affecting data dimensionality. The exhaustive evaluation of ctdGAN with 14 imbalanced datasets demonstrated its superiority in generating high fidelity samples and improving classification accuracy.
- Abstract(参考訳): 表形式は、リレーショナルデータベースシステムとスプレッドシートでデータを表現する標準的な方法を構成する。
しかし、他の形式と同様に、表形式のデータはクラス不均衡に悩まされ、様々な機械学習タスクで深刻なパフォーマンス劣化を引き起こす。
最も効果的なソリューションの1つは、表現されていないクラスのための人工データインスタンスを合成するために、GAN(Generative Adversarial Networks)の使用を規定している。
優れた性能にもかかわらず、提案されたGANモデルは、実際のデータ空間における入力サンプルのベクトル部分空間を考慮に入れておらず、任意の場所でデータを生成する。
さらに、クラスラベルはトレーニング中に他のカテゴリ変数と同じ方法で処理されるため、クラスごとの条件付きサンプリングがより効果的になる。
これらの問題を克服するために,表付きデータセットにおけるクラス不均衡を緩和する条件付きGANであるctdGANを提案する。
当初、ctdGANは、入力サンプルにクラスタラベルを割り当てるスペースパーティショニングステップを実行する。
その後、これらのラベルを用いて、新しい確率的サンプリング戦略と、クラスタとクラスの両方の誤予測をペナルティ化する新しい損失関数を用いてサンプルを合成する。
このように、ctdGANは、元のデータ分布に類似したサブスペースでサンプルを生成するように訓練されている。
また、データ次元に影響を与えることなく複数の特徴モードをキャプチャする、単純で効果的なクラスタ単位のスケーリング技術など、いくつかの改善も導入しています。
14個の不均衡データセットによるctdGANの徹底的な評価は、高忠実度サンプルの生成と分類精度の向上にその優位性を証明した。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Exploring Beyond Logits: Hierarchical Dynamic Labeling Based on Embeddings for Semi-Supervised Classification [49.09505771145326]
モデル予測に依存しない階層型動的ラベル付け(HDL)アルゴリズムを提案し,画像埋め込みを用いてサンプルラベルを生成する。
本手法は,半教師付き学習における擬似ラベル生成のパラダイムを変える可能性がある。
論文 参考訳(メタデータ) (2024-04-26T06:00:27Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Convex space learning improves deep-generative oversampling for tabular
imbalanced classification on smaller datasets [0.0]
既存の深部生成モデルは,少数クラスの凸空間から合成サンプルを生成する線形アプローチと比較して性能が低いことを示す。
本研究では,凸空間学習と深部生成モデルを組み合わせた深部生成モデルConvGeNを提案する。
論文 参考訳(メタデータ) (2022-06-20T14:42:06Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Reprint: a randomized extrapolation based on principal components for data augmentation [19.797216197418926]
本稿では,不均衡なデータ分類のための,シンプルで効果的な隠れ空間データ拡張手法を提案する。
各クラス内のサンプルの隠れスペース表現を与えられたREPRINTは、ランダムな方法で、ターゲットクラスの拡張例を外挿する。
この方法は、拡張例のために新しい軟質ラベルを合成できるラベル改質成分を含む。
論文 参考訳(メタデータ) (2022-04-26T01:38:47Z) - Imbalanced Classification via a Tabular Translation GAN [4.864819846886142]
本稿では,多数のサンプルを対応する合成マイノリティ標本にマッピングするために,新たな正規化損失を用いたジェネレーティブ・アドバイサル・ネットワークに基づくモデルを提案する。
提案手法は, 再加重法やオーバーサンプリング法と比較して, 平均精度を向上することを示す。
論文 参考訳(メタデータ) (2022-04-19T06:02:53Z) - Conditional Wasserstein GAN-based Oversampling of Tabular Data for
Imbalanced Learning [10.051309746913512]
本稿では,条件付きWasserstein GANに基づくオーバーサンプリング手法を提案する。
実世界の7つのデータセット上で,標準的なオーバーサンプリング手法と不均衡なベースラインに対して,本手法をベンチマークした。
論文 参考訳(メタデータ) (2020-08-20T20:33:56Z) - On Leveraging Unlabeled Data for Concurrent Positive-Unlabeled Classification and Robust Generation [72.062661402124]
余分なデータに晒された場合,PU分類と条件生成を共同で目標とする新たなトレーニングフレームワークを提案する。
我々は,CNI-CGANの最適条件を実証し,多様なデータセットについて広範な評価を行った。
論文 参考訳(メタデータ) (2020-06-14T08:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。