論文の概要: DATGAN: Integrating expert knowledge into deep learning for synthetic
tabular data
- arxiv url: http://arxiv.org/abs/2203.03489v1
- Date: Mon, 7 Mar 2022 16:09:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 19:22:21.252990
- Title: DATGAN: Integrating expert knowledge into deep learning for synthetic
tabular data
- Title(参考訳): DATGAN:人工表データのための知識を深層学習に統合する
- Authors: Gael Lederrey, Tim Hillel, Michel Bierlaire
- Abstract要約: 合成データは、バイアスデータセットの修正や、シミュレーション目的の不足したオリジナルデータの置換など、さまざまなアプリケーションで使用することができる。
ディープラーニングモデルはデータ駆動であり、生成プロセスを制御するのは難しい。
本稿では、これらの制限に対処するため、DATGAN(Directed Acyclic Tabular GAN)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data can be used in various applications, such as correcting bias
datasets or replacing scarce original data for simulation purposes. Generative
Adversarial Networks (GANs) are considered state-of-the-art for developing
generative models. However, these deep learning models are data-driven, and it
is, thus, difficult to control the generation process. It can, therefore, lead
to the following issues: lack of representativity in the generated data, the
introduction of bias, and the possibility of overfitting the sample's noise.
This article presents the Directed Acyclic Tabular GAN (DATGAN) to address
these limitations by integrating expert knowledge in deep learning models for
synthetic tabular data generation. This approach allows the interactions
between variables to be specified explicitly using a Directed Acyclic Graph
(DAG). The DAG is then converted to a network of modified Long Short-Term
Memory (LSTM) cells to accept multiple inputs. Multiple DATGAN versions are
systematically tested on multiple assessment metrics. We show that the best
versions of the DATGAN outperform state-of-the-art generative models on
multiple case studies. Finally, we show how the DAG can create hypothetical
synthetic datasets.
- Abstract(参考訳): 合成データは、バイアスデータセットの修正や、シミュレーション目的の不足したオリジナルデータの置換など、さまざまなアプリケーションで使用することができる。
GAN(Generative Adversarial Networks)は、生成モデルを開発するための最先端技術である。
しかし、これらのディープラーニングモデルはデータ駆動であり、生成プロセスを制御することは困難である。
したがって、生成されたデータにおける表現性の欠如、バイアスの導入、そしてサンプルのノイズを過剰に満たす可能性である。
本稿では,合成表データ生成のための深層学習モデルに専門知識を統合することで,これらの制約に対処するために,有向非循環表型gan(datgan)を提案する。
このアプローチは、DAG(Directed Acyclic Graph)を使用して変数間の相互作用を明示的に指定することを可能にする。
DAGは、複数の入力を受け入れるために、改良されたLong Short-Term Memory (LSTM) セルのネットワークに変換される。
複数のDATGANバージョンは、複数の評価指標で体系的にテストされる。
DATGANの最良のバージョンは、複数のケーススタディにおいて最先端の生成モデルよりも優れていることを示す。
最後に、DAGが仮説合成データセットを作成する方法を示す。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Differentially Private Tabular Data Synthesis using Large Language Models [6.6376578496141585]
本稿ではDP-LLMTGenについて紹介する。
DP-LLMTGenは、2段階の微調整手順を用いて、センシティブなデータセットをモデル化する。
微調整LDMをサンプリングすることで合成データを生成する。
論文 参考訳(メタデータ) (2024-06-03T15:43:57Z) - An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文 参考訳(メタデータ) (2024-04-12T12:31:06Z) - CasTGAN: Cascaded Generative Adversarial Network for Realistic Tabular
Data Synthesis [0.4999814847776097]
近年,GAN(Generative Adversarial Network)が注目されている。
合成データの妥当性と基礎となるプライバシーに関する懸念は、十分に対処されていない主要な課題を表している。
論文 参考訳(メタデータ) (2023-07-01T16:52:18Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Language Models are Realistic Tabular Data Generators [15.851912974874116]
本稿では,GReaT (Generation of Realistic Tabular data) を提案する。
提案手法の有効性を,複数角度から得られたデータサンプルの有効性と品質を定量化する一連の実験で実証した。
論文 参考訳(メタデータ) (2022-10-12T15:03:28Z) - TTS-CGAN: A Transformer Time-Series Conditional GAN for Biosignal Data
Augmentation [5.607676459156789]
我々は,既存のマルチクラスデータセットに基づいて学習し,クラス固有の合成時系列列を生成する条件付きGANモデルであるTS-CGANを提案する。
我々のモデルによって生成された合成シーケンスは、実データとは区別できないため、同じタイプの実信号の補完や置換に使うことができる。
論文 参考訳(メタデータ) (2022-06-28T01:01:34Z) - DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative
Networks [71.6879432974126]
本稿では,GANに基づく表型データのための公正な合成データ生成装置であるDECAFを紹介する。
DeCAFは望ましくないバイアスを除去し,高品質な合成データを生成可能であることを示す。
下流モデルの収束と公平性に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2021-10-25T12:39:56Z) - Partially Conditioned Generative Adversarial Networks [75.08725392017698]
Generative Adversarial Networks (GAN)は、実世界のトレーニングデータセットの基盤となる確率分布を暗黙的にモデル化することで、人工データセットを合成する。
条件付きGANとその変種の導入により、これらの手法はデータセット内の各サンプルで利用可能な補助情報に基づいて条件付きサンプルを生成するように拡張された。
本研究では,標準条件付きGANがそのようなタスクに適さないことを論じ,新たなAdversarial Networkアーキテクチャとトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-06T15:59:28Z) - Recent Developments Combining Ensemble Smoother and Deep Generative
Networks for Facies History Matching [58.720142291102135]
本研究は、ファシズムモデルのための連続パラメータ化を構築するためのオートエンコーダネットワークの利用に焦点を当てる。
本稿では,VAE,GAN,Wasserstein GAN,変分自動符号化GAN,サイクルGANの主成分分析(PCA),転送スタイルネットワークのPCA,スタイル損失のVAEの7種類の定式化をベンチマークする。
論文 参考訳(メタデータ) (2020-05-08T21:32:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。