論文の概要: SYNC: A Copula based Framework for Generating Synthetic Data from
Aggregated Sources
- arxiv url: http://arxiv.org/abs/2009.09471v1
- Date: Sun, 20 Sep 2020 16:36:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 12:54:23.593161
- Title: SYNC: A Copula based Framework for Generating Synthetic Data from
Aggregated Sources
- Title(参考訳): SynC: 集約ソースから合成データを生成するCopulaベースのフレームワーク
- Authors: Zheng Li, Yue Zhao, Jialin Fu
- Abstract要約: ダウンスケーリングと呼ばれる合成データ生成タスクについて検討する。
我々はSynC (Synthetic Data Generation via Gaussian Copula) と呼ばれる多段階フレームワークを提案する。
私たちはこの仕事に4つの重要な貢献をしています。
- 参考スコア(独自算出の注目度): 8.350531869939351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A synthetic dataset is a data object that is generated programmatically, and
it may be valuable to creating a single dataset from multiple sources when
direct collection is difficult or costly. Although it is a fundamental step for
many data science tasks, an efficient and standard framework is absent. In this
paper, we study a specific synthetic data generation task called downscaling, a
procedure to infer high-resolution, harder-to-collect information (e.g.,
individual level records) from many low-resolution, easy-to-collect sources,
and propose a multi-stage framework called SYNC (Synthetic Data Generation via
Gaussian Copula). For given low-resolution datasets, the central idea of SYNC
is to fit Gaussian copula models to each of the low-resolution datasets in
order to correctly capture dependencies and marginal distributions, and then
sample from the fitted models to obtain the desired high-resolution subsets.
Predictive models are then used to merge sampled subsets into one, and finally,
sampled datasets are scaled according to low-resolution marginal constraints.
We make four key contributions in this work: 1) propose a novel framework for
generating individual level data from aggregated data sources by combining
state-of-the-art machine learning and statistical techniques, 2) perform
simulation studies to validate SYNC's performance as a synthetic data
generation algorithm, 3) demonstrate its value as a feature engineering tool,
as well as an alternative to data collection in situations where gathering is
difficult through two real-world datasets, 4) release an easy-to-use framework
implementation for reproducibility and scalability at the production level that
easily incorporates new data.
- Abstract(参考訳): 合成データセットはプログラムで生成されたデータオブジェクトであり、直接収集が困難またはコストがかかる場合、複数のソースから単一のデータセットを作成するのに有用である。
多くのデータサイエンスタスクの基本的なステップであるが、効率的で標準のフレームワークは欠落している。
本稿では,高分解能で難解な情報(例えば個人レベルの記録)を多くの低分解能で易解な情報源から推測する手法であるダウンスケーリングと呼ばれる特定の合成データ生成タスクについて検討し,SYNC(Synthetic Data Generation via Gaussian Copula)と呼ばれる多段階のフレームワークを提案する。
与えられた低解像度データセットに対して、同期の中心的な考え方は、ガウスコプラモデルを各低解像度データセットに適合させて、依存関係と限界分布を正確にキャプチャし、適合したモデルからサンプルを採取して所望の高分解能サブセットを取得することである。
予測モデルは、サンプルされたサブセットを1つにマージするために使用され、最終的には、低解像度の限界制約に従ってサンプルデータセットをスケールする。
この仕事には4つの重要な貢献があります
1)最先端機械学習と統計的手法を組み合わせることで、集約データソースから個人レベルのデータを生成する新しいフレームワークを提案する。
2) 合成データ生成アルゴリズムとしてSynCの性能を評価するためのシミュレーション研究を行う。
3) 2つの実世界のデータセットで収集が難しい状況において、機能エンジニアリングツールとしての価値を示すとともに、データ収集の代替手段となること。
4) 新しいデータを簡単に組み込む本番レベルで再現性とスケーラビリティのために、簡単に使えるフレームワーク実装をリリースする。
関連論文リスト
- Hierarchical Conditional Tabular GAN for Multi-Tabular Synthetic Data Generation [0.0]
複雑な多言語データセットから多言語データを合成するアルゴリズムHCTGANを提案する。
提案アルゴリズムは, 深層・複雑な多言語データセットに対して, 大量の合成データをより効率的にサンプリングできることを示す。
我々は,HCTGANアルゴリズムが複雑な関係を持つ深層多言語データセットに対して,大量の合成データを効率的に生成するのに適していると結論付けた。
論文 参考訳(メタデータ) (2024-11-11T14:09:26Z) - Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - CTSyn: A Foundational Model for Cross Tabular Data Generation [9.568990880984813]
Cross-Table Synthesizer (CTSyn) は、表データ生成に適した拡散ベースの基礎モデルである。
CTSynは、実用性と多様性において既存のテーブルシンセサイザーを著しく上回っている。
また、実際のデータで達成可能なものを超えて、下流機械学習のパフォーマンスを独自に向上させる。
論文 参考訳(メタデータ) (2024-06-07T04:04:21Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Generation and Simulation of Synthetic Datasets with Copulas [0.0]
本稿では,数値変数あるいは分類変数からなる合成データセットを生成するための完全かつ信頼性の高いアルゴリズムを提案する。
我々の方法論を2つのデータセットに適用すると、SMOTEやオートエンコーダといった他の手法よりも優れたパフォーマンスが得られる。
論文 参考訳(メタデータ) (2022-03-30T13:22:44Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。