論文の概要: A Comparative Study of Open-Source Libraries for Synthetic Tabular Data Generation: SDV vs. SynthCity
- arxiv url: http://arxiv.org/abs/2506.17847v1
- Date: Sat, 21 Jun 2025 22:45:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.614283
- Title: A Comparative Study of Open-Source Libraries for Synthetic Tabular Data Generation: SDV vs. SynthCity
- Title(参考訳): 合成語彙データ生成のためのオープンソースライブラリの比較研究:SDV対SynthCity
- Authors: Cristian Del Gobbo,
- Abstract要約: 合成データジェネレータは、実データの統計的および構造的特性を複製することで、有望なソリューションを提供する。
本研究では,広く利用されている2つのオープンソースライブラリの合成データ生成装置の性能評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality training data is critical to the performance of machine learning models, particularly Large Language Models (LLMs). However, obtaining real, high-quality data can be challenging, especially for smaller organizations and early-stage startups. Synthetic data generators provide a promising solution by replicating the statistical and structural properties of real data while preserving privacy and scalability. This study evaluates the performance of six tabular synthetic data generators from two widely used open-source libraries: SDV (Gaussian Copula, CTGAN, TVAE) and Synthicity (Bayesian Network, CTGAN, TVAE). Using a real-world dataset from the UCI Machine Learning Repository, comprising energy consumption and environmental variables from Belgium, we simulate a low-data regime by training models on only 1,000 rows. Each generator is then tasked with producing synthetic datasets under two conditions: a 1:1 (1,000 rows) and a 1:10 (10,000 rows) input-output ratio. Evaluation is conducted using two criteria: statistical similarity, measured via classical statistics and distributional metrics; and predictive utility, assessed using a "Train on Synthetic, Test on Real" approach with four regression models. While statistical similarity remained consistent across models in both scenarios, predictive utility declined notably in the 1:10 case. The Bayesian Network from Synthicity achieved the highest fidelity in both scenarios, while TVAE from SDV performed best in predictive tasks under the 1:10 setting. Although no significant performance gap was found between the two libraries, SDV stands out for its superior documentation and ease of use, making it more accessible for practitioners.
- Abstract(参考訳): 高品質なトレーニングデータは、マシンラーニングモデル、特にLarge Language Models(LLMs)のパフォーマンスに不可欠である。
しかし、特に小規模の企業やアーリーステージのスタートアップにとって、実際の高品質なデータを取得することは難しい。
合成データジェネレータは、プライバシとスケーラビリティを保ちながら、実際のデータの統計的および構造的特性を複製することで、有望なソリューションを提供する。
本研究では, SDV (Gaussian Copula, CTGAN, TVAE) とSynthicity (Bayesian Network, CTGAN, TVAE) の2つの広く使用されているオープンソースライブラリの表型合成データ生成器の性能を評価する。
UCI Machine Learning Repositoryの実際のデータセットを用いて、ベルギーのエネルギー消費と環境変数からなる、1000行のモデルで、低データ体制をシミュレートする。
それぞれのジェネレータは、1:1(1000行)と1:10(10,000行)の入力出力比の2つの条件下で合成データセットを生成する。
評価は,古典統計と分布指標を用いて測定された統計的類似度と,4つの回帰モデルを用いた"Train on Synthetic, Test on Real"アプローチを用いて評価される予測ユーティリティの2つの基準を用いて行われる。
どちらのシナリオでも統計的類似性は一貫していたが、予測ユーティリティは1:10のケースでは顕著に低下した。
Synthicity の Bayesian Network は両方のシナリオで最高の忠実さを達成し、SDV の TVAE は1:10 設定で最高の予測タスクを実行した。
2つのライブラリの間に大きなパフォーマンスギャップは見つからなかったが、SDVは優れたドキュメンテーションと使いやすさで際立っている。
関連論文リスト
- RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation [51.86515213749527]
本稿では,多様な実データの自動生成を可能にするスケーラブルなシミュレーションフレームワークであるRoboTwin 2.0を紹介する。
sim-to-real転送を改善するため、RoboTwin 2.0は5つの軸に沿って構造化されたドメインランダム化を組み込んでいる。
このフレームワークは、5つのロボットエボディメントにまたがる50のデュアルアームタスクにまたがってインスタンス化されます。
論文 参考訳(メタデータ) (2025-06-22T16:26:53Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。
実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文 参考訳(メタデータ) (2023-10-15T04:24:42Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - SYNC: A Copula based Framework for Generating Synthetic Data from
Aggregated Sources [8.350531869939351]
ダウンスケーリングと呼ばれる合成データ生成タスクについて検討する。
我々はSynC (Synthetic Data Generation via Gaussian Copula) と呼ばれる多段階フレームワークを提案する。
私たちはこの仕事に4つの重要な貢献をしています。
論文 参考訳(メタデータ) (2020-09-20T16:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。