Fugu-MT 論文翻訳(概要): A Comparison of SynDiffix Multi-table versus Single-table Synthetic Data

論文の概要: A Comparison of SynDiffix Multi-table versus Single-table Synthetic Data

arxiv url: http://arxiv.org/abs/2403.08463v1
Date: Wed, 13 Mar 2024 12:26:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-17 13:28:07.686482
Title: A Comparison of SynDiffix Multi-table versus Single-table Synthetic Data
Title（参考訳）: SynDiffix Multi-table と Single-table Synthetic Data の比較
Authors: Paul Francis,
Abstract要約: SynDiffixは構造化データ合成のための新しいオープンソースツールである。匿名化機能があり、強力な匿名性を維持しながら複数の合成テーブルを生成することができる。本稿では、SDNIST分析フレームワークを用いて、SynDiffixと15の合成データ技術を比較した。
参考スコア（独自算出の注目度）: 0.7252027234425334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: SynDiffix is a new open-source tool for structured data synthesis. It has anonymization features that allow it to generate multiple synthetic tables while maintaining strong anonymity. Compared to the more common single-table approach, multi-table leads to more accurate data, since only the features of interest for a given analysis need be synthesized. This paper compares SynDiffix with 15 other commercial and academic synthetic data techniques using the SDNIST analysis framework, modified by us to accommodate multi-table synthetic data. The results show that SynDiffix is many times more accurate than other approaches for low-dimension tables, but somewhat worse than the best single-table techniques for high-dimension tables.
Abstract（参考訳）: SynDiffixは構造化データ合成のための新しいオープンソースツールである。匿名化機能があり、強力な匿名性を維持しながら複数の合成テーブルを生成することができる。より一般的なシングルテーブルアプローチと比較して、マルチテーブルはより正確なデータをもたらす。本稿では、SDNIST分析フレームワークを用いて、SynDiffixと15の商用および学術的な合成データ技術を比較し、マルチテーブル合成データに対応するように修正した。その結果、SynDiffixは低次元テーブルの他の手法に比べて幾倍も精度が高いが、高次元テーブルの最高のシングルテーブル技術よりはやや劣っていることがわかった。

関連論文リスト

PluRel: Synthetic Data unlocks Scaling Laws for Relational Foundation Models [51.42043158297229]
マルチタブラルリレーショナルデータベースをスクラッチから合成するフレームワークであるPluelを紹介する。ステップバイステップの方法では,(1)有向グラフのスキーマ,(2)二部グラフのテーブル間一次外部キー接続,(3)条件因果機構によるテーブル内の特徴分布をモデル化する。
論文参考訳（メタデータ） (2026-02-03T21:35:18Z)
RelDiff: Relational Data Generative Modeling with Graph-Based Diffusion Models [83.6013616017646]
RelDiffは、外部キーグラフ構造を明示的にモデル化することによって完全な関係データベースを合成する新しい拡散生成モデルである。 RelDiffは、現実的で一貫性のある合成リレーショナルデータベースの作成において、従来手法よりも一貫して優れている。
論文参考訳（メタデータ） (2025-05-31T21:01:02Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
DEREC-SIMPRO: unlock Language Model benefits to advance Synthesis in Data Clean Room [9.784347635082232]
本稿では,多テーブルシンセサイザーの適応性を一般化するために,DEREC3ステップ前処理パイプラインを提案する。また、条件分布と大規模同時仮説テストを利用するSIMPRO3アスペクト評価指標についても紹介する。その結果,DERECの使用は忠実度を向上し,マルチテーブルシンセサイザーはコラボレーション設定においてシングルテーブルよりも優れていた。
論文参考訳（メタデータ） (2024-10-31T13:02:55Z)
Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment [39.137060714048175]
多様性の向上は、データセットを合成するための並列化可能であるが孤立したアプローチを改善することができる、と我々は主張する。本稿では,動的かつ指向的な重み調整技術を用いて合成過程を変調する新しい手法を提案する。提案手法は,合成データの各バッチが,元のデータセットの大規模かつ多様なサブセットの特徴を反映していることを保証する。
論文参考訳（メタデータ） (2024-09-26T08:03:19Z)
Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文参考訳（メタデータ） (2024-06-25T10:49:56Z)
Adapting Differentially Private Synthetic Data to Relational Databases [9.532509662034062]
我々は、既存の差分秘密(DP)合成データ生成機構と組み合わせることができる、第一種アルゴリズムを導入する。我々のアルゴリズムは、個々の合成テーブル間の関係を反復的に洗練し、近似誤差を最小化する。
論文参考訳（メタデータ） (2024-05-29T00:25:07Z)
SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-16T12:22:41Z)
SynDiffix: More accurate synthetic structured data [0.5461938536945723]
本稿では,構造化データに対して統計的に正確な匿名合成データを生成する機構であるSynDiffixを紹介する。 SynDiffixから生成されたMLモデルは、精度が2倍、限界ペアとカラムペアのデータ品質が1〜2桁、実行時間が2桁高速である。
論文参考訳（メタデータ） (2023-11-16T07:17:06Z)
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-10-20T17:14:25Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-17T02:53:21Z)
Generating Realistic Synthetic Relational Data through Graph Variational Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文参考訳（メタデータ） (2022-11-30T10:40:44Z)
Permutation-Invariant Tabular Data Synthesis [14.55825097637513]
入力列の順序を変えることで、実データと合成データの統計的差が最大38.67%悪化することを示す。 AE-GANは,自動エンコーダネットワークを用いて表層データとGANネットワークを表現し,潜在表現を合成する合成器である。提案手法を,カラム置換に対する感度,合成データの品質,下流解析における有用性の観点から評価した。
論文参考訳（メタデータ） (2022-11-17T01:14:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。