論文の概要: A Comparison of SynDiffix Multi-table versus Single-table Synthetic Data
- arxiv url: http://arxiv.org/abs/2403.08463v1
- Date: Wed, 13 Mar 2024 12:26:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-17 13:28:07.686482
- Title: A Comparison of SynDiffix Multi-table versus Single-table Synthetic Data
- Title(参考訳): SynDiffix Multi-table と Single-table Synthetic Data の比較
- Authors: Paul Francis,
- Abstract要約: SynDiffixは構造化データ合成のための新しいオープンソースツールである。
匿名化機能があり、強力な匿名性を維持しながら複数の合成テーブルを生成することができる。
本稿では、SDNIST分析フレームワークを用いて、SynDiffixと15の合成データ技術を比較した。
- 参考スコア(独自算出の注目度): 0.7252027234425334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SynDiffix is a new open-source tool for structured data synthesis. It has anonymization features that allow it to generate multiple synthetic tables while maintaining strong anonymity. Compared to the more common single-table approach, multi-table leads to more accurate data, since only the features of interest for a given analysis need be synthesized. This paper compares SynDiffix with 15 other commercial and academic synthetic data techniques using the SDNIST analysis framework, modified by us to accommodate multi-table synthetic data. The results show that SynDiffix is many times more accurate than other approaches for low-dimension tables, but somewhat worse than the best single-table techniques for high-dimension tables.
- Abstract(参考訳): SynDiffixは構造化データ合成のための新しいオープンソースツールである。
匿名化機能があり、強力な匿名性を維持しながら複数の合成テーブルを生成することができる。
より一般的なシングルテーブルアプローチと比較して、マルチテーブルはより正確なデータをもたらす。
本稿では、SDNIST分析フレームワークを用いて、SynDiffixと15の商用および学術的な合成データ技術を比較し、マルチテーブル合成データに対応するように修正した。
その結果、SynDiffixは低次元テーブルの他の手法に比べて幾倍も精度が高いが、高次元テーブルの最高のシングルテーブル技術よりはやや劣っていることがわかった。
関連論文リスト
- DEREC-SIMPRO: unlock Language Model benefits to advance Synthesis in Data Clean Room [9.784347635082232]
本稿では,多テーブルシンセサイザーの適応性を一般化するために,DEREC3ステップ前処理パイプラインを提案する。
また、条件分布と大規模同時仮説テストを利用するSIMPRO3アスペクト評価指標についても紹介する。
その結果,DERECの使用は忠実度を向上し,マルチテーブルシンセサイザーはコラボレーション設定においてシングルテーブルよりも優れていた。
論文 参考訳(メタデータ) (2024-10-31T13:02:55Z) - Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment [39.137060714048175]
多様性の向上は、データセットを合成するための並列化可能であるが孤立したアプローチを改善することができる、と我々は主張する。
本稿では,動的かつ指向的な重み調整技術を用いて合成過程を変調する新しい手法を提案する。
提案手法は,合成データの各バッチが,元のデータセットの大規模かつ多様なサブセットの特徴を反映していることを保証する。
論文 参考訳(メタデータ) (2024-09-26T08:03:19Z) - Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。
具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。
また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:49:56Z) - Adapting Differentially Private Synthetic Data to Relational Databases [9.532509662034062]
我々は、既存の差分秘密(DP)合成データ生成機構と組み合わせることができる、第一種アルゴリズムを導入する。
我々のアルゴリズムは、個々の合成テーブル間の関係を反復的に洗練し、近似誤差を最小化する。
論文 参考訳(メタデータ) (2024-05-29T00:25:07Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - SynDiffix: More accurate synthetic structured data [0.5461938536945723]
本稿では,構造化データに対して統計的に正確な匿名合成データを生成する機構であるSynDiffixを紹介する。
SynDiffixから生成されたMLモデルは、精度が2倍、限界ペアとカラムペアのデータ品質が1〜2桁、実行時間が2桁高速である。
論文 参考訳(メタデータ) (2023-11-16T07:17:06Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Permutation-Invariant Tabular Data Synthesis [14.55825097637513]
入力列の順序を変えることで、実データと合成データの統計的差が最大38.67%悪化することを示す。
AE-GANは,自動エンコーダネットワークを用いて表層データとGANネットワークを表現し,潜在表現を合成する合成器である。
提案手法を,カラム置換に対する感度,合成データの品質,下流解析における有用性の観点から評価した。
論文 参考訳(メタデータ) (2022-11-17T01:14:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。