論文の概要: SynDiffix: More accurate synthetic structured data
- arxiv url: http://arxiv.org/abs/2311.09628v1
- Date: Thu, 16 Nov 2023 07:17:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 23:12:35.479683
- Title: SynDiffix: More accurate synthetic structured data
- Title(参考訳): SynDiffix: より正確な合成構造化データ
- Authors: Paul Francis, Cristian Berneanu, Edon Gashi,
- Abstract要約: 本稿では,構造化データに対して統計的に正確な匿名合成データを生成する機構であるSynDiffixを紹介する。
SynDiffixから生成されたMLモデルは、精度が2倍、限界ペアとカラムペアのデータ品質が1〜2桁、実行時間が2桁高速である。
- 参考スコア(独自算出の注目度): 0.5461938536945723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces SynDiffix, a mechanism for generating statistically accurate, anonymous synthetic data for structured data. Recent open source and commercial systems use Generative Adversarial Networks or Transformed Auto Encoders to synthesize data, and achieve anonymity through overfitting-avoidance. By contrast, SynDiffix exploits traditional mechanisms of aggregation, noise addition, and suppression among others. Compared to CTGAN, ML models generated from SynDiffix are twice as accurate, marginal and column pairs data quality is one to two orders of magnitude more accurate, and execution time is two orders of magnitude faster. Compared to the best commercial product we measured (MostlyAI), ML model accuracy is comparable, marginal and pairs accuracy is 5 to 10 times better, and execution time is an order of magnitude faster. Similar to the other approaches, SynDiffix anonymization is very strong. This paper describes SynDiffix and compares its performance with other popular open source and commercial systems.
- Abstract(参考訳): 本稿では,構造化データに対して統計的に正確な匿名合成データを生成する機構であるSynDiffixを紹介する。
近年のオープンソースおよび商用システムは、データ合成にGenerative Adversarial NetworksまたはTransformed Auto Encoderを使用し、オーバーフィット回避を通じて匿名性を実現する。
対照的にSynDiffixは、アグリゲーション、ノイズ追加、抑圧といった従来のメカニズムを利用している。
CTGANと比較して、SynDiffixから生成されたMLモデルは2倍正確であり、境界対と列対のデータ品質は1〜2桁、実行時間は2桁高速である。
私たちが測定した最高の商用製品(MostlyAI)と比較すると、MLモデルの精度は同等で、限界があり、ペアの精度は5倍から10倍、実行時間は桁違いに速くなります。
他のアプローチと同様に、SynDiffixの匿名化は非常に強力である。
本稿では、SynDiffixについて述べ、その性能を他の人気のあるオープンソースおよび商用システムと比較する。
関連論文リスト
- Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - SAU: A Dual-Branch Network to Enhance Long-Tailed Recognition via Generative Models [9.340077455871736]
画像認識における長い尾の分布は、いくつかの支配階級間の深刻な不均衡のため、大きな課題となる。
近年,画像分類のための合成データ作成に大規模な生成モデルが用いられている。
本稿では,データ不均衡の影響を解消するために,長い尾のデータセットを補完する合成データを提案する。
論文 参考訳(メタデータ) (2024-08-29T05:33:59Z) - Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。
具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。
また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:49:56Z) - A Comparison of SynDiffix Multi-table versus Single-table Synthetic Data [0.7252027234425334]
SynDiffixは構造化データ合成のための新しいオープンソースツールである。
匿名化機能があり、強力な匿名性を維持しながら複数の合成テーブルを生成することができる。
本稿では、SDNIST分析フレームワークを用いて、SynDiffixと15の合成データ技術を比較した。
論文 参考訳(メタデータ) (2024-03-13T12:26:50Z) - Fast Dual-Regularized Autoencoder for Sparse Biological Data [65.268245109828]
本研究では,近傍正規化行列補完問題に対する浅層オートエンコーダを開発する。
本研究は, 薬物と薬物の相互作用と薬物の放出関連性を予測する上で, 既存の最先端技術に対するアプローチの速度と精度の優位性を実証する。
論文 参考訳(メタデータ) (2024-01-30T01:28:48Z) - Trading Off Scalability, Privacy, and Performance in Data Synthesis [11.698554876505446]
a) Howsoエンジンを導入し、(b)ランダムプロジェクションに基づく合成データ生成フレームワークを提案する。
Howsoエンジンが生成する合成データは、プライバシーと正確性に優れており、その結果、総合的なスコアが最高の結果となる。
提案するランダム・プロジェクション・ベース・フレームワークは,高い精度で合成データを生成することができ,スケーラビリティが最速である。
論文 参考訳(メタデータ) (2023-12-09T02:04:25Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - CORE: Common Random Reconstruction for Distributed Optimization with
Provable Low Communication Complexity [110.50364486645852]
コミュニケーションの複雑さは、トレーニングをスピードアップし、マシン番号をスケールアップする上で、大きなボトルネックになっています。
本稿では,機械間で送信される情報を圧縮するための共通Om REOmを提案する。
論文 参考訳(メタデータ) (2023-09-23T08:45:27Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。