論文の概要: How Realistic Is Your Synthetic Data? Constraining Deep Generative
Models for Tabular Data
- arxiv url: http://arxiv.org/abs/2402.04823v1
- Date: Wed, 7 Feb 2024 13:22:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 15:28:22.426040
- Title: How Realistic Is Your Synthetic Data? Constraining Deep Generative
Models for Tabular Data
- Title(参考訳): 合成データはどれくらいリアルか?
表データに対する深部生成モデルの制約
- Authors: Mihaela C\u{a}t\u{a}lina Stoian, Salijona Dyrmishi, Maxime Cordy,
Thomas Lukasiewicz, Eleonora Giunchiglia
- Abstract要約: 本稿では,制約付き深部生成モデル(C-DGM)をリアルな合成データモデルに変換する方法について述べる。
C-DGMは、制約によって表現される背景知識を活用して、標準知識より優れている。
- 参考スコア(独自算出の注目度): 57.97035325253996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Generative Models (DGMs) have been shown to be powerful tools for
generating tabular data, as they have been increasingly able to capture the
complex distributions that characterize them. However, to generate realistic
synthetic data, it is often not enough to have a good approximation of their
distribution, as it also requires compliance with constraints that encode
essential background knowledge on the problem at hand. In this paper, we
address this limitation and show how DGMs for tabular data can be transformed
into Constrained Deep Generative Models (C-DGMs), whose generated samples are
guaranteed to be compliant with the given constraints. This is achieved by
automatically parsing the constraints and transforming them into a Constraint
Layer (CL) seamlessly integrated with the DGM. Our extensive experimental
analysis with various DGMs and tasks reveals that standard DGMs often violate
constraints, some exceeding $95\%$ non-compliance, while their corresponding
C-DGMs are never non-compliant. Then, we quantitatively demonstrate that, at
training time, C-DGMs are able to exploit the background knowledge expressed by
the constraints to outperform their standard counterparts with up to $6.5\%$
improvement in utility and detection. Further, we show how our CL does not
necessarily need to be integrated at training time, as it can be also used as a
guardrail at inference time, still producing some improvements in the overall
performance of the models. Finally, we show that our CL does not hinder the
sample generation time of the models.
- Abstract(参考訳): 深部生成モデル(Deep Generative Models, DGM)は、表データを生成する強力なツールであることが示されている。
しかし、現実的な合成データを生成するには、問題の背景知識をエンコードする制約を遵守する必要があるため、その分布を適切に近似するには不十分であることが多い。
本稿では,この制限に対処し,グラフデータに対するDGMを制約付き深部生成モデル (Constrained Deep Generative Models, C-DGMs) に変換する方法を示す。
これは、自動的に制約を解析し、それらをDGMとシームレスに統合された制約層(CL)に変換することで達成される。
さまざまなDGMやタスクによる大規模な実験分析から、標準のDGMは制約に違反することが多いことが分かる。
そして、c-dgmsがトレーニング時に、制約によって表される背景知識を活用し、ユーティリティと検出の最大$6.5\%$の改善で標準の知識を上回ることができることを定量的に実証する。
さらに,clがトレーニング時にどのように統合される必要はなく,推論時にガードレールとしても使用可能であり,モデル全体のパフォーマンスにいくつかの改善が加えられていることを示す。
最後に、我々のCLがモデルのサンプル生成時間を妨げないことを示す。
関連論文リスト
- CCDM: Continuous Conditional Diffusion Models for Image Generation [22.70942688582302]
連続条件生成モデリング(CCGM)は、スカラー連続変数に基づく高次元データ(典型的には画像)の分布を推定することを目的としている。
既存のConditional Adversarial Networks (CcGANs) は、当初、このタスクのために設計されていたが、その逆のトレーニングメカニズムは、非常にスパースなデータや不均衡なデータに対して脆弱なままである。
生成画像の品質を高めるために、CcGANを条件拡散モデル(CDM)に置き換えることが有望な方法である。
論文 参考訳(メタデータ) (2024-05-06T15:10:19Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Understanding Deep Generative Models with Generalized Empirical
Likelihoods [3.7978679293562587]
そこで本研究では,最大平均離散性と一般化経験的類似性(Generalized Empirical Likelihood)の技術を組み合わせて,サンプルごとの解釈可能性を維持する分布テストを作成する方法について述べる。
このようなテストでは、精度/リコールの改善などの指標よりも、モード低下やモード不均衡の度合いが最大60%向上していることが判明した。
論文 参考訳(メタデータ) (2023-06-16T11:33:47Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Can segmentation models be trained with fully synthetically generated
data? [0.39577682622066246]
BrainSPADEは、合成拡散ベースのラベルジェネレータとセマンティックイメージジェネレータを組み合わせたモデルである。
本モデルでは, 興味の病理の有無に関わらず, オンデマンドで完全合成脳ラベルを作成でき, 任意のガイド型MRI画像を生成することができる。
brainSPADE合成データは、実際のデータでトレーニングされたモデルに匹敵するパフォーマンスでセグメンテーションモデルをトレーニングするために使用できる。
論文 参考訳(メタデータ) (2022-09-17T05:24:04Z) - DATGAN: Integrating expert knowledge into deep learning for synthetic
tabular data [0.0]
合成データは、バイアスデータセットの修正や、シミュレーション目的の不足したオリジナルデータの置換など、さまざまなアプリケーションで使用することができる。
ディープラーニングモデルはデータ駆動であり、生成プロセスを制御するのは難しい。
本稿では、これらの制限に対処するため、DATGAN(Directed Acyclic Tabular GAN)を提案する。
論文 参考訳(メタデータ) (2022-03-07T16:09:03Z) - Score-based Generative Modeling in Latent Space [93.8985523558869]
スコアベース生成モデル(SGM)は,最近,サンプル品質と分布範囲の両面で顕著な結果を示した。
本稿では,Latent Score-based Generative Model (LSGM)を提案する。
データから潜在空間への移動により、より表現力のある生成モデルをトレーニングし、非連続データにSGMを適用し、よりスムーズなSGMをより小さな空間で学習することができる。
論文 参考訳(メタデータ) (2021-06-10T17:26:35Z) - Continual Learning with Fully Probabilistic Models [70.3497683558609]
機械学習の完全確率的(または生成的)モデルに基づく継続的学習のアプローチを提案する。
生成器と分類器の両方に対してガウス混合モデル(GMM)インスタンスを用いた擬似リハーサル手法を提案する。
我々は,GMRが,クラス増分学習問題に対して,非常に競合的な時間とメモリの複雑さで,最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-04-19T12:26:26Z) - Adversarially-learned Inference via an Ensemble of Discrete Undirected
Graphical Models [3.04585143845864]
我々は、無限大のグラフィカルモデル(AGM)のアンサンブルを生成する推論非依存の敵対的トレーニングフレームワークを提案する。
AGMは、GibsNetやVAEACといったディープニューラルネットワークと同様に、EGMと比較して、目に見えない推論タスクに対して、はるかに優れた一般化を示している。
論文 参考訳(メタデータ) (2020-07-09T19:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。