論文の概要: DATGAN: Integrating expert knowledge into deep learning for synthetic
tabular data
- arxiv url: http://arxiv.org/abs/2203.03489v1
- Date: Mon, 7 Mar 2022 16:09:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 19:22:21.252990
- Title: DATGAN: Integrating expert knowledge into deep learning for synthetic
tabular data
- Title(参考訳): DATGAN:人工表データのための知識を深層学習に統合する
- Authors: Gael Lederrey, Tim Hillel, Michel Bierlaire
- Abstract要約: 合成データは、バイアスデータセットの修正や、シミュレーション目的の不足したオリジナルデータの置換など、さまざまなアプリケーションで使用することができる。
ディープラーニングモデルはデータ駆動であり、生成プロセスを制御するのは難しい。
本稿では、これらの制限に対処するため、DATGAN(Directed Acyclic Tabular GAN)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data can be used in various applications, such as correcting bias
datasets or replacing scarce original data for simulation purposes. Generative
Adversarial Networks (GANs) are considered state-of-the-art for developing
generative models. However, these deep learning models are data-driven, and it
is, thus, difficult to control the generation process. It can, therefore, lead
to the following issues: lack of representativity in the generated data, the
introduction of bias, and the possibility of overfitting the sample's noise.
This article presents the Directed Acyclic Tabular GAN (DATGAN) to address
these limitations by integrating expert knowledge in deep learning models for
synthetic tabular data generation. This approach allows the interactions
between variables to be specified explicitly using a Directed Acyclic Graph
(DAG). The DAG is then converted to a network of modified Long Short-Term
Memory (LSTM) cells to accept multiple inputs. Multiple DATGAN versions are
systematically tested on multiple assessment metrics. We show that the best
versions of the DATGAN outperform state-of-the-art generative models on
multiple case studies. Finally, we show how the DAG can create hypothetical
synthetic datasets.
- Abstract(参考訳): 合成データは、バイアスデータセットの修正や、シミュレーション目的の不足したオリジナルデータの置換など、さまざまなアプリケーションで使用することができる。
GAN(Generative Adversarial Networks)は、生成モデルを開発するための最先端技術である。
しかし、これらのディープラーニングモデルはデータ駆動であり、生成プロセスを制御することは困難である。
したがって、生成されたデータにおける表現性の欠如、バイアスの導入、そしてサンプルのノイズを過剰に満たす可能性である。
本稿では,合成表データ生成のための深層学習モデルに専門知識を統合することで,これらの制約に対処するために,有向非循環表型gan(datgan)を提案する。
このアプローチは、DAG(Directed Acyclic Graph)を使用して変数間の相互作用を明示的に指定することを可能にする。
DAGは、複数の入力を受け入れるために、改良されたLong Short-Term Memory (LSTM) セルのネットワークに変換される。
複数のDATGANバージョンは、複数の評価指標で体系的にテストされる。
DATGANの最良のバージョンは、複数のケーススタディにおいて最先端の生成モデルよりも優れていることを示す。
最後に、DAGが仮説合成データセットを作成する方法を示す。
関連論文リスト
- Generative Modeling of Regular and Irregular Time Series Data via
Koopman VAEs [53.91784369229405]
モデルの新しい設計に基づく新しい生成フレームワークであるKoopman VAEを紹介する。
クープマン理論に触発され、線形写像を用いて潜在条件事前力学を表現する。
以上の結果から,KVAEは,合成および実世界の時系列生成ベンチマークにおいて,最先端のGAN法およびVAE法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-04T07:14:43Z) - CasTGAN: Cascaded Generative Adversarial Network for Realistic Tabular
Data Synthesis [0.4999814847776097]
近年,GAN(Generative Adversarial Network)が注目されている。
合成データの妥当性と基礎となるプライバシーに関する懸念は、十分に対処されていない主要な課題を表している。
論文 参考訳(メタデータ) (2023-07-01T16:52:18Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time
Series [79.64785804590821]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Language Models are Realistic Tabular Data Generators [15.851912974874116]
本稿では,GReaT (Generation of Realistic Tabular data) を提案する。
提案手法の有効性を,複数角度から得られたデータサンプルの有効性と品質を定量化する一連の実験で実証した。
論文 参考訳(メタデータ) (2022-10-12T15:03:28Z) - Can segmentation models be trained with fully synthetically generated
data? [0.39577682622066246]
BrainSPADEは、合成拡散ベースのラベルジェネレータとセマンティックイメージジェネレータを組み合わせたモデルである。
本モデルでは, 興味の病理の有無に関わらず, オンデマンドで完全合成脳ラベルを作成でき, 任意のガイド型MRI画像を生成することができる。
brainSPADE合成データは、実際のデータでトレーニングされたモデルに匹敵するパフォーマンスでセグメンテーションモデルをトレーニングするために使用できる。
論文 参考訳(メタデータ) (2022-09-17T05:24:04Z) - TTS-CGAN: A Transformer Time-Series Conditional GAN for Biosignal Data
Augmentation [5.607676459156789]
我々は,既存のマルチクラスデータセットに基づいて学習し,クラス固有の合成時系列列を生成する条件付きGANモデルであるTS-CGANを提案する。
我々のモデルによって生成された合成シーケンスは、実データとは区別できないため、同じタイプの実信号の補完や置換に使うことができる。
論文 参考訳(メタデータ) (2022-06-28T01:01:34Z) - DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative
Networks [71.6879432974126]
本稿では,GANに基づく表型データのための公正な合成データ生成装置であるDECAFを紹介する。
DeCAFは望ましくないバイアスを除去し,高品質な合成データを生成可能であることを示す。
下流モデルの収束と公平性に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2021-10-25T12:39:56Z) - Composable Generative Models [5.990174495635326]
本稿では,プライバシ保護アプリケーションを考慮した合成データ生成モデルについて述べる。
新しいアーキテクチャであるComposable Generative Model(CGM)を導入する。
CGMは13のデータセットで評価され、14の最近の生成モデルと比較された。
論文 参考訳(メタデータ) (2021-02-18T10:11:29Z) - Partially Conditioned Generative Adversarial Networks [75.08725392017698]
Generative Adversarial Networks (GAN)は、実世界のトレーニングデータセットの基盤となる確率分布を暗黙的にモデル化することで、人工データセットを合成する。
条件付きGANとその変種の導入により、これらの手法はデータセット内の各サンプルで利用可能な補助情報に基づいて条件付きサンプルを生成するように拡張された。
本研究では,標準条件付きGANがそのようなタスクに適さないことを論じ,新たなAdversarial Networkアーキテクチャとトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-06T15:59:28Z) - Recent Developments Combining Ensemble Smoother and Deep Generative
Networks for Facies History Matching [58.720142291102135]
本研究は、ファシズムモデルのための連続パラメータ化を構築するためのオートエンコーダネットワークの利用に焦点を当てる。
本稿では,VAE,GAN,Wasserstein GAN,変分自動符号化GAN,サイクルGANの主成分分析(PCA),転送スタイルネットワークのPCA,スタイル損失のVAEの7種類の定式化をベンチマークする。
論文 参考訳(メタデータ) (2020-05-08T21:32:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。