論文の概要: A Comprehensive Survey of Synthetic Tabular Data Generation
- arxiv url: http://arxiv.org/abs/2504.16506v1
- Date: Wed, 23 Apr 2025 08:33:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.047937
- Title: A Comprehensive Survey of Synthetic Tabular Data Generation
- Title(参考訳): 合成語彙データ生成に関する包括的調査
- Authors: Ruxue Shi, Yili Wang, Mengnan Du, Xu Shen, Xin Wang,
- Abstract要約: タブラルデータ(Tabular data)は、様々な現実世界のアプリケーションにまたがる最も一般的かつ重要なデータフォーマットの1つである。
データ不足、プライバシーの懸念、クラス不均衡といった問題によって制約されることが多い。
合成データ生成は、生成モデルを利用して実際のデータセットの分布を学習する、有望なソリューションとして登場した。
- 参考スコア(独自算出の注目度): 27.112327373017457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data remains one of the most prevalent and critical data formats across diverse real-world applications. However, its effective use in machine learning (ML) is often constrained by challenges such as data scarcity, privacy concerns, and class imbalance. Synthetic data generation has emerged as a promising solution, leveraging generative models to learn the distribution of real datasets and produce high-fidelity, privacy-preserving samples. Various generative paradigms have been explored, including energy-based models (EBMs), variational autoencoders (VAEs), generative adversarial networks (GANs), large language models (LLMs), and diffusion models. While several surveys have investigated synthetic tabular data generation, most focus on narrow subdomains or specific generative methods, such as GANs, diffusion models, or privacy-preserving techniques. This limited scope often results in fragmented insights, lacking a comprehensive synthesis that bridges diverse approaches. In particular, recent advances driven by LLMs and diffusion-based models remain underexplored. This gap hinders a holistic understanding of the field`s evolution, methodological interplay, and open challenges. To address this, our survey provides a unified and systematic review of synthetic tabular data generation. Our contributions are threefold: (1) we propose a comprehensive taxonomy that organizes existing methods into traditional approaches, diffusion-based methods, and LLM-based models, and provide an in-depth comparative analysis; (2) we detail the complete pipeline for synthetic tabular data generation, including data synthesis, post-processing, and evaluation; (3) we identify major challenges, explore real-world applications, and outline open research questions and future directions to guide future work in this rapidly evolving area.
- Abstract(参考訳): タブラルデータは、様々な現実世界のアプリケーションにまたがる最も一般的で重要なデータフォーマットの1つである。
しかしながら、機械学習(ML)における効果的な使用は、データ不足、プライバシー上の懸念、クラス不均衡といった問題によって制限されることが多い。
合成データ生成は有望なソリューションとして登場し、生成モデルを活用して実際のデータセットの分布を学び、高忠実でプライバシ保護のサンプルを生成する。
エネルギーベースモデル(EBM)、変分オートエンコーダ(VAE)、生成敵対ネットワーク(GAN)、大規模言語モデル(LLM)、拡散モデルなど、様々な生成パラダイムが研究されている。
いくつかの調査では合成表データ生成について研究されているが、ほとんどが狭義のサブドメインやGAN、拡散モデル、プライバシ保存技術といった特定の生成手法に焦点を当てている。
この限られた範囲は、しばしば断片化された洞察をもたらし、様々なアプローチを橋渡しする包括的な合成を欠いている。
特に、LSMや拡散モデルによる最近の進歩は未解明のままである。
このギャップは、分野の進化、方法論的相互作用、オープンな課題の全体的理解を妨げる。
これを解決するため,本調査では,合成表データ生成の統一的,体系的なレビューを行っている。
我々は,(1)既存の手法を従来のアプローチ,拡散法,LSMベースのモデルに整理し,詳細な比較分析を行う包括的分類法を提案し,(2)データ合成,後処理,評価を含む合成表データ生成のための完全なパイプラインを詳述し,(3)主要な課題を特定し,現実の応用を探究し,オープンな研究課題と今後の方向性について概説する。
関連論文リスト
- An Empirical Study of Validating Synthetic Data for Text-Based Person Retrieval [51.10419281315848]
我々は,テキストベース人検索(TBPR)研究における合成データの可能性を探るため,実証的研究を行った。
本稿では,自動プロンプト構築戦略を導入するクラス間画像生成パイプラインを提案する。
我々は、画像のさらなる編集に生成AIモデルを応用した、クラス内画像拡張パイプラインを開発する。
論文 参考訳(メタデータ) (2025-03-28T06:18:15Z) - Empowering Time Series Analysis with Synthetic Data: A Survey and Outlook in the Era of Foundation Models [104.17057231661371]
時系列解析は複雑なシステムの力学を理解するために重要である。
基本モデルの最近の進歩はタスク非依存の時系列基礎モデル (TSFM) と大規模言語モデルベース時系列モデル (TSLLM) につながっている。
彼らの成功は、規制、多様性、品質、量制約のために構築が困難である、大規模で多様で高品質なデータセットに依存する。
本調査では,TSFMとTLLLMの合成データの総合的なレビュー,データ生成戦略の分析,モデル事前学習におけるそれらの役割,微調整,評価,今後の研究方向性の特定について述べる。
論文 参考訳(メタデータ) (2025-03-14T13:53:46Z) - LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。
LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。
LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - Second FRCSyn-onGoing: Winning Solutions and Post-Challenge Analysis to Improve Face Recognition with Synthetic Data [104.30479583607918]
第2回FRCSyn-onGoingチャレンジは、CVPR 2024で開始された第2回顔認識チャレンジ(FRCSyn)に基づいている。
我々は、顔認識における現在の課題を解決するために、個々のデータと実際のデータの組み合わせの両方で合成データの利用を検討することに重点を置いている。
論文 参考訳(メタデータ) (2024-12-02T11:12:01Z) - Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Artificial Inductive Bias for Synthetic Tabular Data Generation in Data-Scarce Scenarios [8.062368743143388]
本稿では,限られた実データ環境下でDGM(Deep Generative Models)を用いて,現実的で信頼性の高い合成データを生成する手法を提案する。
本稿では,移動学習とメタ学習技術を用いて,DGMにおける人工的帰納バイアスを生成する方法を提案する。
我々は,2つの最先端DGM,すなわち変分オートエンコーダとジェネレーティブ・アダクティブ・アダクティブ・ネットワークを用いて,人工的帰納バイアスがより優れた合成データ品質をもたらすことを示す。
論文 参考訳(メタデータ) (2024-07-03T12:53:42Z) - On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey [26.670507323784616]
大規模言語モデル(LLM)は、合成データ生成による現実世界のデータ制限を軽減するために、データ中心のソリューションを提供する。
本稿では、合成データ生成の一般的なワークフローに基づく、関連する研究の組織を提供する。
論文 参考訳(メタデータ) (2024-06-14T07:47:09Z) - Differentially Private Tabular Data Synthesis using Large Language Models [6.6376578496141585]
本稿ではDP-LLMTGenについて紹介する。
DP-LLMTGenは、2段階の微調整手順を用いて、センシティブなデータセットをモデル化する。
微調整LDMをサンプリングすることで合成データを生成する。
論文 参考訳(メタデータ) (2024-06-03T15:43:57Z) - Comprehensive Exploration of Synthetic Data Generation: A Survey [4.485401662312072]
この研究は、過去10年間で417のSynthetic Data Generationモデルを調査します。
その結果、ニューラルネットワークベースのアプローチが普及し、モデルのパフォーマンスと複雑性が向上したことが明らかになった。
コンピュータビジョンが支配的であり、GANが主要な生成モデルであり、拡散モデル、トランスフォーマー、RNNが競合する。
論文 参考訳(メタデータ) (2024-01-04T20:23:51Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。