論文の概要: A Comparison of SynDiffix Multi-table versus Single-table Synthetic Data
- arxiv url: http://arxiv.org/abs/2403.08463v1
- Date: Wed, 13 Mar 2024 12:26:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-17 13:28:07.686482
- Title: A Comparison of SynDiffix Multi-table versus Single-table Synthetic Data
- Title(参考訳): SynDiffix Multi-table と Single-table Synthetic Data の比較
- Authors: Paul Francis,
- Abstract要約: SynDiffixは構造化データ合成のための新しいオープンソースツールである。
匿名化機能があり、強力な匿名性を維持しながら複数の合成テーブルを生成することができる。
本稿では、SDNIST分析フレームワークを用いて、SynDiffixと15の合成データ技術を比較した。
- 参考スコア(独自算出の注目度): 0.7252027234425334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SynDiffix is a new open-source tool for structured data synthesis. It has anonymization features that allow it to generate multiple synthetic tables while maintaining strong anonymity. Compared to the more common single-table approach, multi-table leads to more accurate data, since only the features of interest for a given analysis need be synthesized. This paper compares SynDiffix with 15 other commercial and academic synthetic data techniques using the SDNIST analysis framework, modified by us to accommodate multi-table synthetic data. The results show that SynDiffix is many times more accurate than other approaches for low-dimension tables, but somewhat worse than the best single-table techniques for high-dimension tables.
- Abstract(参考訳): SynDiffixは構造化データ合成のための新しいオープンソースツールである。
匿名化機能があり、強力な匿名性を維持しながら複数の合成テーブルを生成することができる。
より一般的なシングルテーブルアプローチと比較して、マルチテーブルはより正確なデータをもたらす。
本稿では、SDNIST分析フレームワークを用いて、SynDiffixと15の商用および学術的な合成データ技術を比較し、マルチテーブル合成データに対応するように修正した。
その結果、SynDiffixは低次元テーブルの他の手法に比べて幾倍も精度が高いが、高次元テーブルの最高のシングルテーブル技術よりはやや劣っていることがわかった。
関連論文リスト
- SynDiffix: More accurate synthetic structured data [0.5461938536945723]
本稿では,構造化データに対して統計的に正確な匿名合成データを生成する機構であるSynDiffixを紹介する。
SynDiffixから生成されたMLモデルは、精度が2倍、限界ペアとカラムペアのデータ品質が1〜2桁、実行時間が2桁高速である。
論文 参考訳(メタデータ) (2023-11-16T07:17:06Z) - TarGEN: Targeted Data Generation with Large Language Models [54.1093098278564]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - AutoDiff: combining Auto-encoder and Diffusion model for tabular data
synthesizing [12.06889830487286]
拡散モデルは、現代の機械学習において、合成データ生成の主要なパラダイムとなっている。
本稿では,合成表データを生成するために拡散モデルのパワーを利用する。
生成した合成表は、実データに対する優れた統計的忠実度を示し、機械学習ユーティリティの下流タスクでよく機能する。
論文 参考訳(メタデータ) (2023-10-24T03:15:19Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Synthcity: facilitating innovative use cases of synthetic data in
different data modalities [86.52703093858631]
Synthcityは、MLフェアネス、プライバシ、拡張における合成データの革新的なユースケースのための、オープンソースのソフトウェアパッケージである。
Synthcityは、実践者に対して、合成データにおける最先端の研究とツールへの単一のアクセスポイントを提供する。
論文 参考訳(メタデータ) (2023-01-18T14:49:54Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Permutation-Invariant Tabular Data Synthesis [14.55825097637513]
入力列の順序を変えることで、実データと合成データの統計的差が最大38.67%悪化することを示す。
AE-GANは,自動エンコーダネットワークを用いて表層データとGANネットワークを表現し,潜在表現を合成する合成器である。
提案手法を,カラム置換に対する感度,合成データの品質,下流解析における有用性の観点から評価した。
論文 参考訳(メタデータ) (2022-11-17T01:14:19Z) - TabSynDex: A Universal Metric for Robust Evaluation of Synthetic Tabular
Data [11.567919812777713]
合成データのロバストな評価のための新しい普遍計量TabSynDexを提案する。
シングルスコアメトリックであるTabSynDexは、ニューラルネットワークベースのアプローチのトレーニングを観察および評価するためにも使用できる。
論文 参考訳(メタデータ) (2022-07-12T04:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。