論文の概要: Improving Correlation Capture in Generating Imbalanced Data using
Differentially Private Conditional GANs
- arxiv url: http://arxiv.org/abs/2206.13787v1
- Date: Tue, 28 Jun 2022 06:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 13:07:45.203674
- Title: Improving Correlation Capture in Generating Imbalanced Data using
Differentially Private Conditional GANs
- Title(参考訳): 差分的条件付きGANを用いた不均衡データ生成における相関キャプチャの改善
- Authors: Chang Sun, Johan van Soest, and Michel Dumontier
- Abstract要約: DP-CGANSは,データ変換,サンプリング,コンディショニング,ネットワークトレーニングにより,現実的かつプライバシ保護データを生成する,微分プライベートな条件付きGANフレームワークである。
統計的類似性,機械学習性能,プライバシ測定の点から,3つの公開データセットと2つの実世界の個人健康データセットの最先端生成モデルを用いて,我々のモデルを広範囲に評価した。
- 参考スコア(独自算出の注目度): 2.2265840715792735
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the remarkable success of Generative Adversarial Networks (GANs) on
text, images, and videos, generating high-quality tabular data is still under
development owing to some unique challenges such as capturing dependencies in
imbalanced data, optimizing the quality of synthetic patient data while
preserving privacy. In this paper, we propose DP-CGANS, a differentially
private conditional GAN framework consisting of data transformation, sampling,
conditioning, and networks training to generate realistic and
privacy-preserving tabular data. DP-CGANS distinguishes categorical and
continuous variables and transforms them to latent space separately. Then, we
structure a conditional vector as an additional input to not only presents the
minority class in the imbalanced data, but also capture the dependency between
variables. We inject statistical noise to the gradients in the networking
training process of DP-CGANS to provide a differential privacy guarantee. We
extensively evaluate our model with state-of-the-art generative models on three
public datasets and two real-world personal health datasets in terms of
statistical similarity, machine learning performance, and privacy measurement.
We demonstrate that our model outperforms other comparable models, especially
in capturing dependency between variables. Finally, we present the balance
between data utility and privacy in synthetic data generation considering the
different data structure and characteristics of real-world datasets such as
imbalance variables, abnormal distributions, and sparsity of data.
- Abstract(参考訳): テキスト、画像、ビデオにおけるGAN(Generative Adversarial Networks)の成功にもかかわらず、不均衡なデータの依存関係の取得や、合成された患者データの品質の最適化、プライバシの保護など、いくつかのユニークな課題のために、高品質な表データの生成はまだ開発中である。
本稿では,DP-CGANSを提案する。DP-CGANSは,データ変換,サンプリング,コンディショニング,ネットワークトレーニングにより,現実的でプライバシに保護された表データを生成する。
DP-CGANSは分類変数と連続変数を区別し、それらを別々に潜在空間に変換する。
次に条件付きベクトルを追加入力として構成し、不均衡データ中のマイノリティクラスを表示するだけでなく、変数間の依存性も取得する。
我々はDP-CGANSのネットワークトレーニングプロセスの勾配に統計的ノイズを注入し、差分プライバシー保証を提供する。
統計的類似性,機械学習性能,プライバシ測定の点から,3つの公開データセットと2つの実世界の個人健康データセットの最先端生成モデルを用いて,我々のモデルを広範囲に評価した。
モデルが他のモデルよりも優れており、特に変数間の依存性を捉えている。
最後に、不均衡変数、異常分布、データの分散といった実世界のデータセットの異なるデータ構造と特性を考慮した合成データ生成におけるデータユーティリティとプライバシのバランスを示す。
関連論文リスト
- An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文 参考訳(メタデータ) (2024-04-12T12:31:06Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Federated Learning Empowered by Generative Content [55.576885852501775]
フェデレートラーニング(FL)は、プライバシ保護方法でモデルのトレーニングに分散プライベートデータを活用可能にする。
本稿では,FedGCと呼ばれる新しいFLフレームワークを提案する。
我々は、さまざまなベースライン、データセット、シナリオ、モダリティをカバーする、FedGCに関する体系的な実証的研究を行う。
論文 参考訳(メタデータ) (2023-12-10T07:38:56Z) - Differentially Private Normalizing Flows for Density Estimation, Data
Synthesis, and Variational Inference with Application to Electronic Health
Records [5.367467795515949]
我々は、深層生成モデルのファミリーである正規化フロー(NF)を用いて、差分プライバシー保証付きデータセットの確率密度を推定する。
本手法を肺高血圧症患者を対象としたERHデータセットに適用した。
以上の結果から,NFを用いた差分プライベート密度推定により生成した合成データは,適切なプライバシコストで良好な効用が得られる可能性が示唆された。
論文 参考訳(メタデータ) (2023-02-11T21:27:57Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - An Analysis of the Deployment of Models Trained on Private Tabular
Synthetic Data: Unexpected Surprises [4.129847064263057]
異なるプライベート(DP)合成データセットは、機械学習モデルをトレーニングするための強力なアプローチである。
差分プライベートな合成データ生成が分類に与える影響について検討する。
論文 参考訳(メタデータ) (2021-06-15T21:00:57Z) - Transitioning from Real to Synthetic data: Quantifying the bias in model [1.6134566438137665]
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。
合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
論文 参考訳(メタデータ) (2021-05-10T06:57:14Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。