論文の概要: Permutation-Invariant Tabular Data Synthesis
- arxiv url: http://arxiv.org/abs/2211.09286v1
- Date: Thu, 17 Nov 2022 01:14:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:45:27.175179
- Title: Permutation-Invariant Tabular Data Synthesis
- Title(参考訳): 置換不変表型データ合成
- Authors: Yujin Zhu, Zilong Zhao, Robert Birke, Lydia Y. Chen
- Abstract要約: 入力列の順序を変えることで、実データと合成データの統計的差が最大38.67%悪化することを示す。
AE-GANは,自動エンコーダネットワークを用いて表層データとGANネットワークを表現し,潜在表現を合成する合成器である。
提案手法を,カラム置換に対する感度,合成データの品質,下流解析における有用性の観点から評価した。
- 参考スコア(独自算出の注目度): 14.55825097637513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data synthesis is an emerging approach to circumvent strict
regulations on data privacy while discovering knowledge through big data.
Although state-of-the-art AI-based tabular data synthesizers, e.g., table-GAN,
CTGAN, TVAE, and CTAB-GAN, are effective at generating synthetic tabular data,
their training is sensitive to column permutations of input data. In this
paper, we first conduct an extensive empirical study to disclose such a
property of permutation invariance and an in-depth analysis of the existing
synthesizers. We show that changing the input column order worsens the
statistical difference between real and synthetic data by up to 38.67% due to
the encoding of tabular data and the network architectures. To fully unleash
the potential of big synthetic tabular data, we propose two solutions: (i)
AE-GAN, a synthesizer that uses an autoencoder network to represent the tabular
data and GAN networks to synthesize the latent representation, and (ii) a
feature sorting algorithm to find the suitable column order of input data for
CNN-based synthesizers. We evaluate the proposed solutions on five datasets in
terms of the sensitivity to the column permutation, the quality of synthetic
data, and the utility in downstream analyses. Our results show that we enhance
the property of permutation-invariance when training synthesizers and further
improve the quality and utility of synthetic data, up to 22%, compared to the
existing synthesizers.
- Abstract(参考訳): 表型データ合成は、ビッグデータを通じて知識を発見しながら、データプライバシに関する厳格な規制を回避するための新たなアプローチだ。
表-GAN、CTGAN、TVAE、CTAB-GANといった最先端のAIベースの表データシンセサイザーは、合成表データを生成するのに有効であるが、それらのトレーニングは入力データの列置換に敏感である。
本稿では、まず、置換不変性を明らかにするための広範な実験研究と、既存のシンセサイザーの詳細な分析を行う。
入力列の順序を変更することで、表形式のデータとネットワークアーキテクチャの符号化により、実データと合成データの統計的差異が最大38.67%悪化することを示す。
巨大合成表データの可能性を完全に解き放つために,我々は2つの解決策を提案する。
(i)AE-GANは、自動エンコーダネットワークを用いて表データとGANネットワークを表現し、潜在表現を合成するシンセサイザーであり、
(ii)cnnベースのシンセサイザにおける入力データの適切な列順を求める特徴ソートアルゴリズム。
提案手法は, カラム置換に対する感度, 合成データの品質, 下流解析における有用性の観点から, 5つのデータセットの解を評価できる。
以上の結果から, 合成装置のトレーニングにおける置換不変性の向上と, 合成データの品質と有用性の向上が, 既存の合成装置と比較して最大22%向上することが示唆された。
関連論文リスト
- Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。
具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。
また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:49:56Z) - CTSyn: A Foundational Model for Cross Tabular Data Generation [9.568990880984813]
Cross-Table Synthesizer (CTSyn) は、表データ生成に適した拡散ベースの基礎モデルである。
CTSynは、実用性と多様性において既存のテーブルシンセサイザーを著しく上回っている。
また、実際のデータで達成可能なものを超えて、下流機械学習のパフォーマンスを独自に向上させる。
論文 参考訳(メタデータ) (2024-06-07T04:04:21Z) - TarGEN: Targeted Data Generation with Large Language Models [54.1093098278564]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - AutoDiff: combining Auto-encoder and Diffusion model for tabular data
synthesizing [12.06889830487286]
拡散モデルは、現代の機械学習において、合成データ生成の主要なパラダイムとなっている。
本稿では,合成表データを生成するために拡散モデルのパワーを利用する。
生成した合成表は、実データに対する優れた統計的忠実度を示し、機械学習ユーティリティの下流タスクでよく機能する。
論文 参考訳(メタデータ) (2023-10-24T03:15:19Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - FCT-GAN: Enhancing Table Synthesis via Fourier Transform [13.277332691308395]
合成データは、例えば、一般データ保護規則(General Data Protection Regulation)を遵守しながら、知識を共有する代替手段として出現する。
本稿では,トランスジェネレータと識別器を構築するために,特徴トークン化とフーリエネットワークを導入し,コラム間の局所的およびグローバルな依存関係をキャプチャする。
論文 参考訳(メタデータ) (2022-10-12T14:25:29Z) - Advancing Semi-Supervised Learning for Automatic Post-Editing: Data-Synthesis by Mask-Infilling with Erroneous Terms [5.366354612549173]
高品質な合成データを作成するためのデータ合成手法に着目する。
本稿では,結果の合成データが実際のデータにある翻訳誤りを模倣するデータ合成手法を提案する。
実験結果から, 提案手法により生成した合成データを用いることで, 既存の合成データよりもAPEの性能が有意に向上することがわかった。
論文 参考訳(メタデータ) (2022-04-08T07:48:57Z) - CTAB-GAN: Effective Table Data Synthesizing [7.336728307626645]
多様なデータ型をモデル化できる条件付きテーブルGANアーキテクチャCTAB-GANを開発。
CTAB-GANは3種類の変数の実際のデータに非常に似ており、5つの機械学習アルゴリズムの精度が17%向上したことを示しています。
論文 参考訳(メタデータ) (2021-02-16T18:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。