論文の概要: Generative Modeling for Tabular Data via Penalized Optimal Transport
Network
- arxiv url: http://arxiv.org/abs/2402.10456v1
- Date: Fri, 16 Feb 2024 05:27:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 17:32:14.471355
- Title: Generative Modeling for Tabular Data via Penalized Optimal Transport
Network
- Title(参考訳): ペナライズド最適輸送ネットワークによる表データ生成モデリング
- Authors: Wenhui Sophia Lu, Chenyang Zhong, Wing Hung Wong
- Abstract要約: Wasserstein generative adversarial network (WGAN) は、生成モデルにおいて顕著な改善である。
本稿では,新しい,頑健で解釈可能な辺縁補償型Wasserstein(MPW)損失に基づく生成型ディープニューラルネットワークPOTNetを提案する。
- 参考スコア(独自算出の注目度): 2.0319002824093015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of precisely learning the probability distribution of rows within
tabular data and producing authentic synthetic samples is both crucial and
non-trivial. Wasserstein generative adversarial network (WGAN) marks a notable
improvement in generative modeling, addressing the challenges faced by its
predecessor, generative adversarial network. However, due to the mixed data
types and multimodalities prevalent in tabular data, the delicate equilibrium
between the generator and discriminator, as well as the inherent instability of
Wasserstein distance in high dimensions, WGAN often fails to produce
high-fidelity samples. To this end, we propose POTNet (Penalized Optimal
Transport Network), a generative deep neural network based on a novel, robust,
and interpretable marginally-penalized Wasserstein (MPW) loss. POTNet can
effectively model tabular data containing both categorical and continuous
features. Moreover, it offers the flexibility to condition on a subset of
features. We provide theoretical justifications for the motivation behind the
MPW loss. We also empirically demonstrate the effectiveness of our proposed
method on four different benchmarks across a variety of real-world and
simulated datasets. Our proposed model achieves orders of magnitude speedup
during the sampling stage compared to state-of-the-art generative models for
tabular data, thereby enabling efficient large-scale synthetic data generation.
- Abstract(参考訳): 表データ内の行の確率分布を正確に学習し、本物の合成サンプルを生成するタスクは重要かつ非自明である。
wasserstein generative adversarial network (wgan) は、前身であるgenerative adversarial networkが直面する課題に対処するため、生成モデリングにおける顕著な改善である。
しかし, グラフデータによく見られる混合データ型や多モード性, ジェネレータと判別器の微妙な平衡, 高次元におけるワッサーシュタイン距離の固有の不安定性などにより, WGANは高忠実度サンプルの生成に失敗することが多い。
この目的のために,新しい,頑健で解釈可能な辺縁補償ワッサースタイン(MPW)損失に基づく生成型ディープニューラルネットワークであるPOTNetを提案する。
POTNetは、分類と連続の両方の機能を含む表データを効果的にモデル化できる。
さらに、機能のサブセットに対する条件付けの柔軟性も提供する。
我々はMPW損失の背景にある動機を理論的に正当化する。
また,提案手法の有効性を実世界およびシミュレーションデータセットの4つの異なるベンチマークで実証的に実証した。
提案手法は, サンプリング段階では, 表データに対する最先端生成モデルと比較して1桁の高速化を実現し, 効率的な大規模合成データ生成を実現する。
関連論文リスト
- Network reconstruction via the minimum description length principle [0.0]
階層的ベイズ推定と重み量子化に基づく別の非パラメトリック正則化スキームを提案する。
提案手法は最小記述長 (MDL) の原理に従い, データの最大圧縮を可能にする重み分布を明らかにする。
提案手法は, 人工ネットワークと経験ネットワークの再構築において, 体系的に精度を向上することを示した。
論文 参考訳(メタデータ) (2024-05-02T05:35:09Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Estimating Regression Predictive Distributions with Sample Networks [17.935136717050543]
モデル不確実性に対する一般的なアプローチは、パラメトリック分布を選択し、最大推定を用いてデータに適合させることである。
選択されたパラメトリック形式は、データ生成分布に不適合であり、信頼できない不確実性推定をもたらす。
出力分布にパラメトリック形式を指定することを避けるため,不確実性をモデル化するためのフレキシブルでスケーラブルなアーキテクチャであるSampleNetを提案する。
論文 参考訳(メタデータ) (2022-11-24T17:23:29Z) - Deep Generative Modeling on Limited Data with Regularization by
Nontransferable Pre-trained Models [32.52492468276371]
本稿では,限られたデータを用いた生成モデルの分散を低減するために,正規化深層生成モデル(Reg-DGM)を提案する。
Reg-DGMは、ある発散の重み付け和とエネルギー関数の期待を最適化するために、事前訓練されたモデルを使用する。
実験的に、様々な事前訓練された特徴抽出器とデータ依存エネルギー関数により、Reg-DGMはデータ制限のある強力なDGMの生成性能を一貫して改善する。
論文 参考訳(メタデータ) (2022-08-30T10:28:50Z) - Compound Density Networks for Risk Prediction using Electronic Health
Records [1.1786249372283562]
複合密度ネットワーク(CDNet)を用いたエンドツーエンド統合手法を提案する。
CDNetは、単一のフレームワーク内で計算方法と予測モデルを調整できるようにする。
我々は,MIMIC-IIIデータセット上での死亡予測タスクにおいてCDNetを検証した。
論文 参考訳(メタデータ) (2022-08-02T09:04:20Z) - Truncated tensor Schatten p-norm based approach for spatiotemporal
traffic data imputation with complicated missing patterns [77.34726150561087]
本研究は, モード駆動繊維による3症例の欠失を含む, 4症例の欠失パターンについて紹介する。
本モデルでは, 目的関数の非性にもかかわらず, 乗算器の交互データ演算法を統合することにより, 最適解を導出する。
論文 参考訳(メタデータ) (2022-05-19T08:37:56Z) - Inferential Wasserstein Generative Adversarial Networks [9.859829604054127]
自動エンコーダとWGANを融合する原理的フレームワークである新しい推論ワッサースタインGAN(iWGAN)モデルを導入する。
iWGANはモード崩壊の症状を大幅に緩和し、収束を高速化し、各サンプルの品質チェックの測定を行うことができる。
論文 参考訳(メタデータ) (2021-09-13T00:43:21Z) - Comparing Probability Distributions with Conditional Transport [63.11403041984197]
新しい発散として条件輸送(CT)を提案し、償却されたCT(ACT)コストと近似します。
ACTは条件付き輸送計画の計算を補正し、計算が容易な非バイアスのサンプル勾配を持つ。
さまざまなベンチマークデータセットのジェネレーティブモデリングでは、既存のジェネレーティブ敵対ネットワークのデフォルトの統計距離をACTに置き換えることで、一貫してパフォーマンスを向上させることが示されています。
論文 参考訳(メタデータ) (2020-12-28T05:14:22Z) - Distribution Approximation and Statistical Estimation Guarantees of
Generative Adversarial Networks [82.61546580149427]
GAN(Generative Adversarial Networks)は教師なし学習において大きな成功を収めている。
本稿では,H'older空間における密度データ分布推定のためのGANの近似と統計的保証を提供する。
論文 参考訳(メタデータ) (2020-02-10T16:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。