論文の概要: Sequential Models in the Synthetic Data Vault
- arxiv url: http://arxiv.org/abs/2207.14406v1
- Date: Thu, 28 Jul 2022 23:17:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-01 13:26:39.374293
- Title: Sequential Models in the Synthetic Data Vault
- Title(参考訳): 合成データVaultにおける逐次モデル
- Authors: Kevin Zhang, Neha Patki, Kalyan Veeramachaneni
- Abstract要約: 本研究の目的は,Synthetic Data vault内に合成シーケンシャルデータを生成するシステムを記述することである。
本稿では,マルチシーケンス,実世界のデータ生成モデルを構築するエンドツーエンドフレームワークであるSDVのSequentialモデルについて述べる。
- 参考スコア(独自算出の注目度): 8.35780131268962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of this paper is to describe a system for generating synthetic
sequential data within the Synthetic data vault. To achieve this, we present
the Sequential model currently in SDV, an end-to-end framework that builds a
generative model for multi-sequence, real-world data. This includes a novel
neural network-based machine learning model, conditional probabilistic
auto-regressive (CPAR) model. The overall system and the model is available in
the open source Synthetic Data Vault (SDV) library
{https://github.com/sdv-dev/SDV}, along with a variety of other models for
different synthetic data needs.
After building the Sequential SDV, we used it to generate synthetic data and
compared its quality against an existing, non-sequential generative adversarial
network based model called CTGAN. To compare the sequential synthetic data
against its real counterpart, we invented a new metric called Multi-Sequence
Aggregate Similarity (MSAS). We used it to conclude that our Sequential SDV
model learns higher level patterns than non-sequential models without any
trade-offs in synthetic data quality.
- Abstract(参考訳): 本研究の目的は,Synthetic Data vault内に合成シーケンシャルデータを生成するシステムを記述することである。
そこで本研究では,多系列実世界のデータ生成モデルを構築するエンドツーエンドフレームワークであるSDVのSequentialモデルを提案する。
これには、ニューラルネットワークベースの新しい機械学習モデル、条件付き確率的自己回帰(CPAR)モデルが含まれる。
システム全体とモデルについては、オープンソースのSynthetic Data Vault (SDV) ライブラリ {https://github.com/sdv-dev/SDV} と、さまざまな合成データを必要とするさまざまなモデルで利用可能である。
シークエンシャルSDVを構築した後、合成データを生成し、その品質をCTGANと呼ばれる既存の非シークエンシャルな生成逆ネットワークモデルと比較した。
実データと比較するため,Multi-Sequence Aggregate similarity (MSAS)と呼ばれる新しい指標を考案した。
我々は、連続SDVモデルは、合成データ品質のトレードオフを伴わずに、非逐次モデルよりも高いレベルのパターンを学習する。
関連論文リスト
- Machine Unlearning using a Multi-GAN based Model [0.0]
本稿では,GAN(Generative Adversarial Network)をベースとした新しい機械学習手法を提案する。
提案手法は,GANモデルを用いたデータ再構成と,学習済みモデルを微調整する2つのフェーズから構成される。
論文 参考訳(メタデータ) (2024-07-26T02:28:32Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - AutoDiff: combining Auto-encoder and Diffusion model for tabular data
synthesizing [12.06889830487286]
拡散モデルは、現代の機械学習において、合成データ生成の主要なパラダイムとなっている。
本稿では,合成表データを生成するために拡散モデルのパワーを利用する。
生成した合成表は、実データに対する優れた統計的忠実度を示し、機械学習ユーティリティの下流タスクでよく機能する。
論文 参考訳(メタデータ) (2023-10-24T03:15:19Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。
実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文 参考訳(メタデータ) (2023-10-15T04:24:42Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - TTS-CGAN: A Transformer Time-Series Conditional GAN for Biosignal Data
Augmentation [5.607676459156789]
我々は,既存のマルチクラスデータセットに基づいて学習し,クラス固有の合成時系列列を生成する条件付きGANモデルであるTS-CGANを提案する。
我々のモデルによって生成された合成シーケンスは、実データとは区別できないため、同じタイプの実信号の補完や置換に使うことができる。
論文 参考訳(メタデータ) (2022-06-28T01:01:34Z) - Variational Autoencoder Generative Adversarial Network for Synthetic
Data Generation in Smart Home [15.995891934245334]
本稿では,変動型自動エンコーダ生成適応ネットワーク(VAE-GAN)をスマートグリッドデータ生成モデルとして提案する。
VAE-GANは、様々な種類のデータ分布を学習し、同じ分布から可塑性サンプルを生成することができる。
実験により,提案した合成データ生成モデルは,バニラGANネットワークより優れていることが示された。
論文 参考訳(メタデータ) (2022-01-19T02:30:25Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Variational Hyper RNN for Sequence Modeling [69.0659591456772]
本稿では,時系列データにおける高変数の取得に優れる新しい確率的シーケンスモデルを提案する。
提案手法では,時間潜時変数を用いて基礎となるデータパターンに関する情報をキャプチャする。
提案手法の有効性を,合成および実世界のシーケンシャルデータに示す。
論文 参考訳(メタデータ) (2020-02-24T19:30:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。