論文の概要: Programmable Synthetic Tabular Data Generation
- arxiv url: http://arxiv.org/abs/2307.03577v1
- Date: Fri, 7 Jul 2023 13:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 12:30:29.883031
- Title: Programmable Synthetic Tabular Data Generation
- Title(参考訳): プログラム可能な合成表データ生成
- Authors: Mark Vero, Mislav Balunovi\'c, Martin Vechev
- Abstract要約: ProgSynは,生成したデータに対して包括的カスタマイズが可能な,プログラム可能な最初の合成データ生成アルゴリズムである。
ProgSynは、オリジナルのデータセットで生成モデルを事前訓練し、提供された仕様から自動的に派生した差分損失に基づいて微調整する。
我々は,ProgSynを様々な制約で広範囲に実験的に評価し,一部では新たな最先端を達成しつつ,一般性を維持した。
- 参考スコア(独自算出の注目度): 10.388166927211905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large amounts of tabular data remain underutilized due to privacy, data
quality, and data sharing limitations. While training a generative model
producing synthetic data resembling the original distribution addresses some of
these issues, most applications require additional constraints from the
generated data. Existing synthetic data approaches are limited as they
typically only handle specific constraints, e.g., differential privacy (DP) or
increased fairness, and lack an accessible interface for declaring general
specifications. In this work, we introduce ProgSyn, the first programmable
synthetic tabular data generation algorithm that allows for comprehensive
customization over the generated data. To ensure high data quality while
adhering to custom specifications, ProgSyn pre-trains a generative model on the
original dataset and fine-tunes it on a differentiable loss automatically
derived from the provided specifications. These can be programmatically
declared using statistical and logical expressions, supporting a wide range of
requirements (e.g., DP or fairness, among others). We conduct an extensive
experimental evaluation of ProgSyn on a number of constraints, achieving a new
state-of-the-art on some, while remaining general. For instance, at the same
fairness level we achieve 2.3% higher downstream accuracy than the
state-of-the-art in fair synthetic data generation on the Adult dataset.
Overall, ProgSyn provides a versatile and accessible framework for generating
constrained synthetic tabular data, allowing for specifications that generalize
beyond the capabilities of prior work.
- Abstract(参考訳): 大量の表データは、プライバシ、データ品質、データ共有の制限のため、未使用のままである。
元の分布に類似した合成データを生成する生成モデルを訓練する際、ほとんどのアプリケーションは生成されたデータから追加の制約を必要とする。
既存の合成データアプローチは、通常、差分プライバシ(DP)や公平性の増大といった特定の制約にのみ対処するので制限されている。
本稿では,生成したデータに対して包括的なカスタマイズが可能な,最初のプログラム可能な合成表データ生成アルゴリズムであるProgSynを紹介する。
カスタム仕様に準拠したまま高いデータ品質を確保するため、ProgSynはオリジナルのデータセットで生成モデルを事前トレーニングし、提供された仕様から自動的に派生した差別化可能な損失を微調整する。
これらは統計的および論理的表現を用いてプログラム的に宣言され、幅広い要件(例えば、DPや公正性など)をサポートする。
我々は,ProgSynを様々な制約で広範囲に実験的に評価し,一部では新たな最先端の達成を図っている。
例えば、同じ公平度レベルでは、アダルトデータセット上の公正な合成データ生成の最先端よりも、下流の精度が2.3%高い。
全体として、ProgSynは制約付き合成表データを生成するための汎用的でアクセスしやすいフレームワークを提供する。
関連論文リスト
- Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Differentially Private Tabular Data Synthesis using Large Language Models [6.6376578496141585]
本稿ではDP-LLMTGenについて紹介する。
DP-LLMTGenは、2段階の微調整手順を用いて、センシティブなデータセットをモデル化する。
微調整LDMをサンプリングすることで合成データを生成する。
論文 参考訳(メタデータ) (2024-06-03T15:43:57Z) - Inference With Combining Rules From Multiple Differentially Private Synthetic Datasets [0.0]
DIPSデータセットの分析にルールを組み合わせることによって,プロシージャの適用性を検討する。
我々の経験的実験により、提案された組み合わせルールは、特定の状況において正確な推論を提供するが、すべての場合において正確な推論はできないことが示された。
論文 参考訳(メタデータ) (2024-05-08T02:33:35Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Customized Load Profiles Synthesis for Electricity Customers Based on
Conditional Diffusion Models [10.283633619387782]
異種顧客のための条件付き拡散モデルに基づく新しい負荷プロファイル合成法を提案する。
条件付き拡散モデルを実装するために,残差層を積み重ねた雑音推定モデルを設計する。
提案手法の有効性と優位性を検証するために,公開データセットに基づく事例研究を行った。
論文 参考訳(メタデータ) (2023-04-24T13:14:31Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Improving Correlation Capture in Generating Imbalanced Data using
Differentially Private Conditional GANs [2.2265840715792735]
DP-CGANSは,データ変換,サンプリング,コンディショニング,ネットワークトレーニングにより,現実的かつプライバシ保護データを生成する,微分プライベートな条件付きGANフレームワークである。
統計的類似性,機械学習性能,プライバシ測定の点から,3つの公開データセットと2つの実世界の個人健康データセットの最先端生成モデルを用いて,我々のモデルを広範囲に評価した。
論文 参考訳(メタデータ) (2022-06-28T06:47:27Z) - Synthesizing Property & Casualty Ratemaking Datasets using Generative
Adversarial Networks [2.2649197740853677]
秘密のオリジナルデータセットから合成保険データセットを構築することができるGAN(Generative Adversarial Network)の3種類の設計方法を示す。
透明性のために、これらのアプローチは、公開データセット、フランスのモーターサードパーティの負債データを使って説明されている。
MC-WGAN-GPは最良のデータを合成し、CTGANは最も使いやすく、MNCDP-GANは差分プライバシーを保証する。
論文 参考訳(メタデータ) (2020-08-13T21:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。