論文の概要: Synthetic Tabular Data Generation: A Comparative Survey for Modern Techniques
- arxiv url: http://arxiv.org/abs/2507.11590v1
- Date: Tue, 15 Jul 2025 14:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.086731
- Title: Synthetic Tabular Data Generation: A Comparative Survey for Modern Techniques
- Title(参考訳): 合成語彙データ生成 : 現代技術の比較調査
- Authors: Raju Challagundla, Mohsen Dorodchi, Pu Wang, Minwoo Lee,
- Abstract要約: プライバシー規制が厳しくなり、現実世界のデータへのアクセスが制限されるようになるにつれ、合成データ生成は重要なソリューションとして現れてきた。
このレビューでは、条件付き生成やリスクに敏感なモデリングを含む、合成データ生成を駆動する実行可能な目標を優先する。
- 参考スコア(独自算出の注目度): 6.744437741221969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As privacy regulations become more stringent and access to real-world data becomes increasingly constrained, synthetic data generation has emerged as a vital solution, especially for tabular datasets, which are central to domains like finance, healthcare and the social sciences. This survey presents a comprehensive and focused review of recent advances in synthetic tabular data generation, emphasizing methods that preserve complex feature relationships, maintain statistical fidelity, and satisfy privacy requirements. A key contribution of this work is the introduction of a novel taxonomy based on practical generation objectives, including intended downstream applications, privacy guarantees, and data utility, directly informing methodological design and evaluation strategies. Therefore, this review prioritizes the actionable goals that drive synthetic data creation, including conditional generation and risk-sensitive modeling. Additionally, the survey proposes a benchmark framework to align technical innovation with real-world demands. By bridging theoretical foundations with practical deployment, this work serves as both a roadmap for future research and a guide for implementing synthetic tabular data in privacy-critical environments.
- Abstract(参考訳): プライバシー規制が厳しくなり、現実世界のデータへのアクセスが制限されるようになるにつれ、合成データ生成は、特に金融、医療、社会科学といった分野の中心をなす表形式のデータセットにとって、重要なソリューションとして現れてきた。
本調査では, 複雑な特徴関係を保ち, 統計的忠実性を維持し, プライバシー要件を満たす方法を強調し, 合成表形式データ生成の最近の進歩を包括的かつ集中的に検討する。
この研究の重要な貢献は、ダウンストリームアプリケーション、プライバシ保証、データユーティリティなど、実用的な世代目標に基づく新しい分類の導入であり、方法論設計と評価戦略を直接実行している。
そこで本研究では, 条件生成やリスク感応性モデリングを含む, 合成データ生成を駆動する実行可能な目標を優先する。
さらに調査では、技術革新と現実の要求を結びつけるためのベンチマークフレームワークも提案している。
理論的基盤を実践的な展開でブリッジすることで、この研究は将来の研究のロードマップと、プライバシークリティカルな環境で合成表データを実装するためのガイドの両方に役立ちます。
関連論文リスト
- Synthetic Tabular Data: Methods, Attacks and Defenses [12.374541748245843]
合成データは、プライバシの懸念から解放された、機密性の高い固定サイズのデータセットを無制限に一致するデータのソースに置き換えるソリューションとして、しばしば位置づけられる。
合成データ生成はこの10年で大きく進歩し、機械学習とデータ分析の進歩を生かしている。
論文 参考訳(メタデータ) (2025-06-06T14:16:57Z) - A Comprehensive Survey of Synthetic Tabular Data Generation [31.576625554168473]
タブラルデータ(英: Tabular data)は、医療、金融、教育といった現実世界のアプリケーションにおいて、最も一般的で重要なデータフォーマットの1つである。
本調査は,本分野の総合的な理解を研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-04-23T08:33:34Z) - A Survey on Tabular Data Generation: Utility, Alignment, Fidelity, Privacy, and Beyond [53.56796220109518]
異なるユースケースは、実際に有用な異なる要件を満たすために合成データを要求する。
合成データの実用性、合成データのドメイン固有の知識との整合性、実際のデータ分布と比較しての合成データ分布の統計的忠実度、プライバシ保護能力の4つの要件をレビューする。
今後の分野の方向性と、現在の評価方法を改善する機会について論じる。
論文 参考訳(メタデータ) (2025-03-07T21:47:11Z) - Opinion: Revisiting synthetic data classifications from a privacy perspective [42.12937192948916]
合成データは、AI開発の増大するデータ要求を満たすための費用対効果のソリューションとして浮上している。
従来の合成データ型の分類は、合成データを生成するための絶え間なく増加する手法を反映していない。
我々は、プライバシーの観点をよりよく反映した、合成データ型をグループ化する、別のアプローチを例に挙げる。
論文 参考訳(メタデータ) (2025-03-05T13:54:13Z) - LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。
LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。
LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - Second FRCSyn-onGoing: Winning Solutions and Post-Challenge Analysis to Improve Face Recognition with Synthetic Data [104.30479583607918]
第2回FRCSyn-onGoingチャレンジは、CVPR 2024で開始された第2回顔認識チャレンジ(FRCSyn)に基づいている。
我々は、顔認識における現在の課題を解決するために、個々のデータと実際のデータの組み合わせの両方で合成データの利用を検討することに重点を置いている。
論文 参考訳(メタデータ) (2024-12-02T11:12:01Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - A primer on synthetic health data [0.2770822269241974]
深層生成モデルの最近の進歩は、現実的な合成健康データセットを作成する可能性を大きく広げている。
これらの合成データセットは、患者のアイデンティティやセンシティブな情報を開示することなく、特徴、パターン、全体的な科学的結論を保存することを目的としている。
しかし、合成データセットの類似性と予測ユーティリティを継続的に評価する方法など、多くの疑問や課題が残っている。
論文 参考訳(メタデータ) (2024-01-31T08:13:35Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Statistical properties and privacy guarantees of an original
distance-based fully synthetic data generation method [0.0]
この研究は、多段階のフレームワークを用いて、公開リリース可能な合成データを生成する技術的実現可能性を示す。
新たな多段階合成データ生成フレームワークを用いて生成したデータの質を評価することで,Open-CESPイニシアチブの技術的,概念的健全性を実証した。
論文 参考訳(メタデータ) (2023-10-10T12:29:57Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。