Fugu-MT 論文翻訳(概要): SynDiffix: More accurate synthetic structured data

論文の概要: SynDiffix: More accurate synthetic structured data

arxiv url: http://arxiv.org/abs/2311.09628v1
Date: Thu, 16 Nov 2023 07:17:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 23:12:35.479683
Title: SynDiffix: More accurate synthetic structured data
Title（参考訳）: SynDiffix: より正確な合成構造化データ
Authors: Paul Francis, Cristian Berneanu, Edon Gashi,
Abstract要約: 本稿では,構造化データに対して統計的に正確な匿名合成データを生成する機構であるSynDiffixを紹介する。 SynDiffixから生成されたMLモデルは、精度が2倍、限界ペアとカラムペアのデータ品質が1〜2桁、実行時間が2桁高速である。
参考スコア（独自算出の注目度）: 0.5461938536945723
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces SynDiffix, a mechanism for generating statistically accurate, anonymous synthetic data for structured data. Recent open source and commercial systems use Generative Adversarial Networks or Transformed Auto Encoders to synthesize data, and achieve anonymity through overfitting-avoidance. By contrast, SynDiffix exploits traditional mechanisms of aggregation, noise addition, and suppression among others. Compared to CTGAN, ML models generated from SynDiffix are twice as accurate, marginal and column pairs data quality is one to two orders of magnitude more accurate, and execution time is two orders of magnitude faster. Compared to the best commercial product we measured (MostlyAI), ML model accuracy is comparable, marginal and pairs accuracy is 5 to 10 times better, and execution time is an order of magnitude faster. Similar to the other approaches, SynDiffix anonymization is very strong. This paper describes SynDiffix and compares its performance with other popular open source and commercial systems.
Abstract（参考訳）: 本稿では,構造化データに対して統計的に正確な匿名合成データを生成する機構であるSynDiffixを紹介する。近年のオープンソースおよび商用システムは、データ合成にGenerative Adversarial NetworksまたはTransformed Auto Encoderを使用し、オーバーフィット回避を通じて匿名性を実現する。対照的にSynDiffixは、アグリゲーション、ノイズ追加、抑圧といった従来のメカニズムを利用している。 CTGANと比較して、SynDiffixから生成されたMLモデルは2倍正確であり、境界対と列対のデータ品質は1〜2桁、実行時間は2桁高速である。私たちが測定した最高の商用製品(MostlyAI)と比較すると、MLモデルの精度は同等で、限界があり、ペアの精度は5倍から10倍、実行時間は桁違いに速くなります。他のアプローチと同様に、SynDiffixの匿名化は非常に強力である。本稿では、SynDiffixについて述べ、その性能を他の人気のあるオープンソースおよび商用システムと比較する。

関連論文リスト

SWE-Synth: Synthesizing Verifiable Bug-Fix Data to Enable Large Language Models in Resolving Real-World Bugs [10.70881967278009]
本稿では,現実的な検証可能な,プロセス対応のバグフィックスデータセットをリポジトリレベルで合成するフレームワークであるSWE- Synthを紹介する。手作業で収集したデータセットと比較して、文脈的豊かさと正確さを保ちながら、最小限の人的労力でスケールする。この結果から,APRとソフトウェア工学の自動化の最先端を推し進めるために,人工エージェント生成データの可能性を強調した。
論文参考訳（メタデータ） (2025-04-20T22:37:43Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。 SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文参考訳（メタデータ） (2024-10-24T10:47:30Z)
SAU: A Dual-Branch Network to Enhance Long-Tailed Recognition via Generative Models [9.340077455871736]
画像認識における長い尾の分布は、いくつかの支配階級間の深刻な不均衡のため、大きな課題となる。近年,画像分類のための合成データ作成に大規模な生成モデルが用いられている。本稿では,データ不均衡の影響を解消するために,長い尾のデータセットを補完する合成データを提案する。
論文参考訳（メタデータ） (2024-08-29T05:33:59Z)
Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文参考訳（メタデータ） (2024-06-25T10:49:56Z)
A Comparison of SynDiffix Multi-table versus Single-table Synthetic Data [0.7252027234425334]
SynDiffixは構造化データ合成のための新しいオープンソースツールである。匿名化機能があり、強力な匿名性を維持しながら複数の合成テーブルを生成することができる。本稿では、SDNIST分析フレームワークを用いて、SynDiffixと15の合成データ技術を比較した。
論文参考訳（メタデータ） (2024-03-13T12:26:50Z)
Fast Dual-Regularized Autoencoder for Sparse Biological Data [65.268245109828]
本研究では,近傍正規化行列補完問題に対する浅層オートエンコーダを開発する。本研究は, 薬物と薬物の相互作用と薬物の放出関連性を予測する上で, 既存の最先端技術に対するアプローチの速度と精度の優位性を実証する。
論文参考訳（メタデータ） (2024-01-30T01:28:48Z)
Trading Off Scalability, Privacy, and Performance in Data Synthesis [11.698554876505446]
a) Howsoエンジンを導入し、(b)ランダムプロジェクションに基づく合成データ生成フレームワークを提案する。 Howsoエンジンが生成する合成データは、プライバシーと正確性に優れており、その結果、総合的なスコアが最高の結果となる。提案するランダム・プロジェクション・ベース・フレームワークは,高い精度で合成データを生成することができ,スケーラビリティが最速である。
論文参考訳（メタデータ） (2023-12-09T02:04:25Z)
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-10-20T17:14:25Z)
CORE: Common Random Reconstruction for Distributed Optimization with Provable Low Communication Complexity [110.50364486645852]
コミュニケーションの複雑さは、トレーニングをスピードアップし、マシン番号をスケールアップする上で、大きなボトルネックになっています。本稿では,機械間で送信される情報を圧縮するための共通Om REOmを提案する。
論文参考訳（メタデータ） (2023-09-23T08:45:27Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。