論文の概要: Distributed Conditional GAN (discGAN) For Synthetic Healthcare Data
Generation
- arxiv url: http://arxiv.org/abs/2304.04290v1
- Date: Sun, 9 Apr 2023 18:35:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 16:33:03.804001
- Title: Distributed Conditional GAN (discGAN) For Synthetic Healthcare Data
Generation
- Title(参考訳): 医療データ生成のための分散条件GAN(discGAN)
- Authors: David Fuentes, Diana McSpadden and Sodiq Adewole
- Abstract要約: 本稿では,医療領域固有の合成データを生成する分散生成適応ネットワーク(discGAN)を提案する。
我々は、オリジナルの2,027 eICUデータセットから249,000の合成記録を生成した。
その結果,disGANは実データに類似した分布を持つデータを生成することができた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we propose a distributed Generative Adversarial Networks
(discGANs) to generate synthetic tabular data specific to the healthcare
domain. While using GANs to generate images has been well studied, little to no
attention has been given to generation of tabular data. Modeling distributions
of discrete and continuous tabular data is a non-trivial task with high
utility. We applied discGAN to model non-Gaussian multi-modal healthcare data.
We generated 249,000 synthetic records from original 2,027 eICU dataset. We
evaluated the performance of the model using machine learning efficacy, the
Kolmogorov-Smirnov (KS) test for continuous variables and chi-squared test for
discrete variables. Our results show that discGAN was able to generate data
with distributions similar to the real data.
- Abstract(参考訳): 本稿では,医療領域に特有の合成表データを生成するための分散生成逆ネットワーク (discgans) を提案する。
画像生成にganを用いる研究は盛んに行われているが,表データ生成にはほとんど注意が払われていない。
離散的および連続的な表データ分布のモデル化は、高い実用性を持つ非自明なタスクである。
非ガウス的マルチモーダル医療データのモデル化にdisGANを適用した。
元の2,027 eICUデータセットから249,000の合成記録を生成した。
本研究では,機械学習の有効性,連続変数のkolmogorov-smirnov(ks)テスト,離散変数のchi-squaredテストを用いてモデルの性能評価を行った。
その結果,disGANは実データと同様の分布を持つデータを生成することができた。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文 参考訳(メタデータ) (2024-04-12T12:31:06Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Synthesizing Mixed-type Electronic Health Records using Diffusion Models [10.973115905786129]
合成データ生成は、機密性の高い患者情報を共有する際のプライバシー上の懸念を軽減するための有望なソリューションである。
近年の研究では、拡散モデルは、より現実的な合成データの生成や、画像、テキスト、音声などのデータモダリティの生成における安定したトレーニングなど、GANに対していくつかの利点があることが示された。
実験の結果,TabDDPMは,プライバシーとユーティリティのトレードオフを確認するプライバシー以外のすべての評価指標において,最先端モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-28T15:42:30Z) - Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文 参考訳(メタデータ) (2022-10-24T08:57:55Z) - Language Models are Realistic Tabular Data Generators [15.851912974874116]
本稿では,GReaT (Generation of Realistic Tabular data) を提案する。
提案手法の有効性を,複数角度から得られたデータサンプルの有効性と品質を定量化する一連の実験で実証した。
論文 参考訳(メタデータ) (2022-10-12T15:03:28Z) - Improving Correlation Capture in Generating Imbalanced Data using
Differentially Private Conditional GANs [2.2265840715792735]
DP-CGANSは,データ変換,サンプリング,コンディショニング,ネットワークトレーニングにより,現実的かつプライバシ保護データを生成する,微分プライベートな条件付きGANフレームワークである。
統計的類似性,機械学習性能,プライバシ測定の点から,3つの公開データセットと2つの実世界の個人健康データセットの最先端生成モデルを用いて,我々のモデルを広範囲に評価した。
論文 参考訳(メタデータ) (2022-06-28T06:47:27Z) - Generative Adversarial Networks for Synthetic Data Generation: A
Comparative Study [1.0896567381206714]
データ合成の手段としてGAN(Generative Adversarial Networks)が注目されている。
本稿では,合成国勢調査マイクロデータの生成を目的としたGANの活用の可能性について考察する。
論文 参考訳(メタデータ) (2021-12-03T14:23:17Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - GANs with Conditional Independence Graphs: On Subadditivity of
Probability Divergences [70.30467057209405]
GAN(Generative Adversarial Networks)は、データセットの基盤となる分布を学習するための現代的な手法である。
GANは、基礎となるディストリビューションに関する追加情報がないモデルフリーで設計されている。
本稿では,ベイズネット/MRFの近傍に単純な識別器群を用いたモデルベースGANの設計を提案する。
論文 参考訳(メタデータ) (2020-03-02T04:31:22Z) - Distribution Approximation and Statistical Estimation Guarantees of
Generative Adversarial Networks [82.61546580149427]
GAN(Generative Adversarial Networks)は教師なし学習において大きな成功を収めている。
本稿では,H'older空間における密度データ分布推定のためのGANの近似と統計的保証を提供する。
論文 参考訳(メタデータ) (2020-02-10T16:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。