論文の概要: Generative Modeling for Tabular Data via Penalized Optimal Transport
Network
- arxiv url: http://arxiv.org/abs/2402.10456v1
- Date: Fri, 16 Feb 2024 05:27:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 17:32:14.471355
- Title: Generative Modeling for Tabular Data via Penalized Optimal Transport
Network
- Title(参考訳): ペナライズド最適輸送ネットワークによる表データ生成モデリング
- Authors: Wenhui Sophia Lu, Chenyang Zhong, Wing Hung Wong
- Abstract要約: Wasserstein generative adversarial network (WGAN) は、生成モデルにおいて顕著な改善である。
本稿では,新しい,頑健で解釈可能な辺縁補償型Wasserstein(MPW)損失に基づく生成型ディープニューラルネットワークPOTNetを提案する。
- 参考スコア(独自算出の注目度): 2.0319002824093015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of precisely learning the probability distribution of rows within
tabular data and producing authentic synthetic samples is both crucial and
non-trivial. Wasserstein generative adversarial network (WGAN) marks a notable
improvement in generative modeling, addressing the challenges faced by its
predecessor, generative adversarial network. However, due to the mixed data
types and multimodalities prevalent in tabular data, the delicate equilibrium
between the generator and discriminator, as well as the inherent instability of
Wasserstein distance in high dimensions, WGAN often fails to produce
high-fidelity samples. To this end, we propose POTNet (Penalized Optimal
Transport Network), a generative deep neural network based on a novel, robust,
and interpretable marginally-penalized Wasserstein (MPW) loss. POTNet can
effectively model tabular data containing both categorical and continuous
features. Moreover, it offers the flexibility to condition on a subset of
features. We provide theoretical justifications for the motivation behind the
MPW loss. We also empirically demonstrate the effectiveness of our proposed
method on four different benchmarks across a variety of real-world and
simulated datasets. Our proposed model achieves orders of magnitude speedup
during the sampling stage compared to state-of-the-art generative models for
tabular data, thereby enabling efficient large-scale synthetic data generation.
- Abstract(参考訳): 表データ内の行の確率分布を正確に学習し、本物の合成サンプルを生成するタスクは重要かつ非自明である。
wasserstein generative adversarial network (wgan) は、前身であるgenerative adversarial networkが直面する課題に対処するため、生成モデリングにおける顕著な改善である。
しかし, グラフデータによく見られる混合データ型や多モード性, ジェネレータと判別器の微妙な平衡, 高次元におけるワッサーシュタイン距離の固有の不安定性などにより, WGANは高忠実度サンプルの生成に失敗することが多い。
この目的のために,新しい,頑健で解釈可能な辺縁補償ワッサースタイン(MPW)損失に基づく生成型ディープニューラルネットワークであるPOTNetを提案する。
POTNetは、分類と連続の両方の機能を含む表データを効果的にモデル化できる。
さらに、機能のサブセットに対する条件付けの柔軟性も提供する。
我々はMPW損失の背景にある動機を理論的に正当化する。
また,提案手法の有効性を実世界およびシミュレーションデータセットの4つの異なるベンチマークで実証的に実証した。
提案手法は, サンプリング段階では, 表データに対する最先端生成モデルと比較して1桁の高速化を実現し, 効率的な大規模合成データ生成を実現する。
関連論文リスト
- Data Augmentation via Diffusion Model to Enhance AI Fairness [1.2979015577834876]
本稿では,AIフェアネスを改善するために合成データを生成する拡散モデルの可能性について検討する。
Tabular Denoising Diffusion Probabilistic Model (Tab-DDPM) を用いてデータ拡張を行った。
実験結果から,Tab-DDPMにより生成された合成データは,二項分類の公平性を向上させることが示された。
論文 参考訳(メタデータ) (2024-10-20T18:52:31Z) - An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文 参考訳(メタデータ) (2024-04-12T12:31:06Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - CasTGAN: Cascaded Generative Adversarial Network for Realistic Tabular
Data Synthesis [0.4999814847776097]
近年,GAN(Generative Adversarial Network)が注目されている。
合成データの妥当性と基礎となるプライバシーに関する懸念は、十分に対処されていない主要な課題を表している。
論文 参考訳(メタデータ) (2023-07-01T16:52:18Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Language Models are Realistic Tabular Data Generators [15.851912974874116]
本稿では,GReaT (Generation of Realistic Tabular data) を提案する。
提案手法の有効性を,複数角度から得られたデータサンプルの有効性と品質を定量化する一連の実験で実証した。
論文 参考訳(メタデータ) (2022-10-12T15:03:28Z) - Variational Autoencoder Generative Adversarial Network for Synthetic
Data Generation in Smart Home [15.995891934245334]
本稿では,変動型自動エンコーダ生成適応ネットワーク(VAE-GAN)をスマートグリッドデータ生成モデルとして提案する。
VAE-GANは、様々な種類のデータ分布を学習し、同じ分布から可塑性サンプルを生成することができる。
実験により,提案した合成データ生成モデルは,バニラGANネットワークより優れていることが示された。
論文 参考訳(メタデータ) (2022-01-19T02:30:25Z) - Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。
Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。
大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文 参考訳(メタデータ) (2020-06-15T22:22:56Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。