論文の概要: Generating Privacy-Preserving Process Data with Deep Generative Models
- arxiv url: http://arxiv.org/abs/2203.07949v1
- Date: Tue, 15 Mar 2022 14:29:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 15:05:48.770825
- Title: Generating Privacy-Preserving Process Data with Deep Generative Models
- Title(参考訳): 深部生成モデルによるプライバシ保護プロセスデータの生成
- Authors: Keyi Li, Sen Yang, Travis M. Sullivan, Randall S. Burd, Ivan Marsic
- Abstract要約: プロセスデータ生成のための逆生成ネットワーク(ProcessGAN)を導入する。
我々は6つの実世界のデータセット上でProcessGANと従来のモデルを評価する。
我々は,プロセスGANが,認証データと区別できない大量の共有可能な合成プロセスデータを生成することができると結論付けた。
- 参考スコア(独自算出の注目度): 7.3268099910347715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Process data with confidential information cannot be shared directly in
public, which hinders the research in process data mining and analytics. Data
encryption methods have been studied to protect the data, but they still may be
decrypted, which leads to individual identification. We experimented with
different models of representation learning and used the learned model to
generate synthetic process data. We introduced an adversarial generative
network for process data generation (ProcessGAN) with two Transformer networks
for the generator and the discriminator. We evaluated ProcessGAN and
traditional models on six real-world datasets, of which two are public and four
are collected in medical domains. We used statistical metrics and supervised
learning scores to evaluate the synthetic data. We also used process mining to
discover workflows for the authentic and synthetic datasets and had medical
experts evaluate the clinical applicability of the synthetic workflows. We
found that ProcessGAN outperformed traditional sequential models when trained
on small authentic datasets of complex processes. ProcessGAN better represented
the long-range dependencies between the activities, which is important for
complicated processes such as the medical processes. Traditional sequential
models performed better when trained on large data of simple processes. We
conclude that ProcessGAN can generate a large amount of sharable synthetic
process data indistinguishable from authentic data.
- Abstract(参考訳): 機密情報によるプロセスデータの直接的な共有はできないため、プロセスデータのマイニングと分析の研究が妨げられる。
データ暗号化手法はデータを保護するために研究されているが、復号化され、個々の識別につながる可能性がある。
表現学習の異なるモデルを実験し,学習モデルを用いて合成プロセスデータを生成する。
我々は,プロセスデータ生成のための逆生成ネットワーク(ProcessGAN)を導入し,生成器と識別器の2つのトランスフォーマーネットワークを導入した。
我々は,6つの実世界のデータセットでProcessGANと従来のモデルを評価し,そのうち2つは公開され,4つは医療領域で収集された。
統計的指標と教師付き学習スコアを用いて合成データの評価を行った。
また、プロセスマイニングを用いて、真正および合成データセットのワークフローを発見し、医療専門家に合成ワークフローの臨床的適用性を評価した。
ProcessGANは、複雑なプロセスの小さな認証データセットでトレーニングされた場合、従来のシーケンシャルモデルよりも優れていた。
processganは、医療プロセスのような複雑なプロセスで重要なアクティビティ間の長距離依存性を表現した。
従来のシーケンシャルモデルは、単純なプロセスの大規模データでトレーニングするとより良く機能する。
結論として, プロセスガンは, 実データと区別できない大量の合成プロセスデータを生成することができる。
関連論文リスト
- Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Leveraging Data Augmentation for Process Information Extraction [0.0]
自然言語テキストデータに対するデータ拡張の適用について検討する。
データ拡張は、自然言語テキストからビジネスプロセスモデルを生成するタスクのための機械学習メソッドを実現する上で重要なコンポーネントである。
論文 参考訳(メタデータ) (2024-04-11T06:32:03Z) - Assessment of Differentially Private Synthetic Data for Utility and
Fairness in End-to-End Machine Learning Pipelines for Tabular Data [3.555830838738963]
差分プライベート(DP)合成データセットは、個々のデータプロバイダのプライバシを保持しながらデータを共有するためのソリューションである。
機械学習モデルの訓練と評価に最も効果的な合成データ生成手法を同定する。
論文 参考訳(メタデータ) (2023-10-30T03:37:16Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic Demographic Data Generation for Card Fraud Detection Using
GANs [4.651915393462367]
我々は、人口統計データ生成に使用されるDGGANと呼ばれるディープラーニングジェネレーティブ・アドバイサル・ネットワーク(GAN)を構築している。
本モデルでは,モデルトレーニング中にサンプルを生成し,クラス不均衡問題を克服することの重要性を見出した。
論文 参考訳(メタデータ) (2023-06-29T17:08:57Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - Knowledge transfer across cell lines using Hybrid Gaussian Process
models with entity embedding vectors [62.997667081978825]
生物化学的プロセスを開発するために、多数の実験が実施されている。
既に開発されたプロセスのデータを利用して、新しいプロセスの予測を行い、必要な実験の数を大幅に削減できるだろうか。
論文 参考訳(メタデータ) (2020-11-27T17:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。