論文の概要: SynDiffix: More accurate synthetic structured data
- arxiv url: http://arxiv.org/abs/2311.09628v1
- Date: Thu, 16 Nov 2023 07:17:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 23:12:35.479683
- Title: SynDiffix: More accurate synthetic structured data
- Title(参考訳): SynDiffix: より正確な合成構造化データ
- Authors: Paul Francis, Cristian Berneanu, Edon Gashi,
- Abstract要約: 本稿では,構造化データに対して統計的に正確な匿名合成データを生成する機構であるSynDiffixを紹介する。
SynDiffixから生成されたMLモデルは、精度が2倍、限界ペアとカラムペアのデータ品質が1〜2桁、実行時間が2桁高速である。
- 参考スコア(独自算出の注目度): 0.5461938536945723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces SynDiffix, a mechanism for generating statistically accurate, anonymous synthetic data for structured data. Recent open source and commercial systems use Generative Adversarial Networks or Transformed Auto Encoders to synthesize data, and achieve anonymity through overfitting-avoidance. By contrast, SynDiffix exploits traditional mechanisms of aggregation, noise addition, and suppression among others. Compared to CTGAN, ML models generated from SynDiffix are twice as accurate, marginal and column pairs data quality is one to two orders of magnitude more accurate, and execution time is two orders of magnitude faster. Compared to the best commercial product we measured (MostlyAI), ML model accuracy is comparable, marginal and pairs accuracy is 5 to 10 times better, and execution time is an order of magnitude faster. Similar to the other approaches, SynDiffix anonymization is very strong. This paper describes SynDiffix and compares its performance with other popular open source and commercial systems.
- Abstract(参考訳): 本稿では,構造化データに対して統計的に正確な匿名合成データを生成する機構であるSynDiffixを紹介する。
近年のオープンソースおよび商用システムは、データ合成にGenerative Adversarial NetworksまたはTransformed Auto Encoderを使用し、オーバーフィット回避を通じて匿名性を実現する。
対照的にSynDiffixは、アグリゲーション、ノイズ追加、抑圧といった従来のメカニズムを利用している。
CTGANと比較して、SynDiffixから生成されたMLモデルは2倍正確であり、境界対と列対のデータ品質は1〜2桁、実行時間は2桁高速である。
私たちが測定した最高の商用製品(MostlyAI)と比較すると、MLモデルの精度は同等で、限界があり、ペアの精度は5倍から10倍、実行時間は桁違いに速くなります。
他のアプローチと同様に、SynDiffixの匿名化は非常に強力である。
本稿では、SynDiffixについて述べ、その性能を他の人気のあるオープンソースおよび商用システムと比較する。
関連論文リスト
- A Comparison of SynDiffix Multi-table versus Single-table Synthetic Data [0.7252027234425334]
SynDiffixは構造化データ合成のための新しいオープンソースツールである。
匿名化機能があり、強力な匿名性を維持しながら複数の合成テーブルを生成することができる。
本稿では、SDNIST分析フレームワークを用いて、SynDiffixと15の合成データ技術を比較した。
論文 参考訳(メタデータ) (2024-03-13T12:26:50Z) - Fast Dual-Regularized Autoencoder for Sparse Biological Data [65.268245109828]
本研究では,近傍正規化行列補完問題に対する浅層オートエンコーダを開発する。
本研究は, 薬物と薬物の相互作用と薬物の放出関連性を予測する上で, 既存の最先端技術に対するアプローチの速度と精度の優位性を実証する。
論文 参考訳(メタデータ) (2024-01-30T01:28:48Z) - Trading Off Scalability, Privacy, and Performance in Data Synthesis [11.698554876505446]
a) Howsoエンジンを導入し、(b)ランダムプロジェクションに基づく合成データ生成フレームワークを提案する。
Howsoエンジンが生成する合成データは、プライバシーと正確性に優れており、その結果、総合的なスコアが最高の結果となる。
提案するランダム・プロジェクション・ベース・フレームワークは,高い精度で合成データを生成することができ,スケーラビリティが最速である。
論文 参考訳(メタデータ) (2023-12-09T02:04:25Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - CORE: Common Random Reconstruction for Distributed Optimization with
Provable Low Communication Complexity [110.50364486645852]
コミュニケーションの複雑さは、トレーニングをスピードアップし、マシン番号をスケールアップする上で、大きなボトルネックになっています。
本稿では,機械間で送信される情報を圧縮するための共通Om REOmを提案する。
論文 参考訳(メタデータ) (2023-09-23T08:45:27Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - To Asymmetry and Beyond: Structured Pruning of Sequence to Sequence
Models for Improved Inference Efficiency [37.22592489907125]
モデル精度はエンコーダサイズに結びついており、推論効率はデコーダに接続されていることを示す。
平均的な劣化と非対称性の役割の両方が、データセットのモデルサイズとバリエーションで一致していることが分かりました。
論文 参考訳(メタデータ) (2023-04-05T19:44:20Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。