論文の概要: CuTS: Customizable Tabular Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2307.03577v4
- Date: Sun, 2 Jun 2024 08:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 21:10:26.500223
- Title: CuTS: Customizable Tabular Synthetic Data Generation
- Title(参考訳): CuTS: カスタマイズ可能なタブラル合成データ生成
- Authors: Mark Vero, Mislav Balunović, Martin Vechev,
- Abstract要約: 最初にカスタマイズ可能な合成データ生成フレームワークであるCuTSを紹介する。
CuTSは、元のデータセットで事前トレーニングされ、提供された仕様から自動的に派生した微分可能な損失に基づいて微調整される。
我々は4つのデータセットと多数のカスタム仕様に基づいてCuTSを評価し、より汎用的でありながら、いくつかのタスクにおける最先端の専門的アプローチより優れている。
- 参考スコア(独自算出の注目度): 2.184775414778289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Privacy, data quality, and data sharing concerns pose a key limitation for tabular data applications. While generating synthetic data resembling the original distribution addresses some of these issues, most applications would benefit from additional customization on the generated data. However, existing synthetic data approaches are limited to particular constraints, e.g., differential privacy (DP) or fairness. In this work, we introduce CuTS, the first customizable synthetic tabular data generation framework. Customization in CuTS is achieved via declarative statistical and logical expressions, supporting a wide range of requirements (e.g., DP or fairness, among others). To ensure high synthetic data quality in the presence of custom specifications, CuTS is pre-trained on the original dataset and fine-tuned on a differentiable loss automatically derived from the provided specifications using novel relaxations. We evaluate CuTS over four datasets and on numerous custom specifications, outperforming state-of-the-art specialized approaches on several tasks while being more general. In particular, at the same fairness level, we achieve 2.3% higher downstream accuracy than the state-of-the-art in fair synthetic data generation on the Adult dataset.
- Abstract(参考訳): プライバシー、データ品質、データ共有に関する懸念は、表データアプリケーションにとって重要な制限となる。
元のディストリビューションに類似した合成データを生成することはこれらの問題のいくつかに対処するが、ほとんどのアプリケーションは生成されたデータのさらなるカスタマイズの恩恵を受けるだろう。
しかし、既存の合成データアプローチは、例えば、差分プライバシー(DP)や公正性といった特定の制約に限られている。
本研究では,最初のカスタマイズ可能な合成表データ生成フレームワークであるCuTSを紹介する。
CuTSのカスタマイズは、宣言的な統計的および論理的表現によって達成され、幅広い要件(例えば、DPや公正性など)をサポートする。
カスタム仕様の存在下で高い合成データ品質を確保するため、CuTSは元のデータセットで事前訓練され、新しい緩和法を用いて提供された仕様から自動的に派生した微分可能な損失に基づいて微調整される。
我々は4つのデータセットと多数のカスタム仕様に基づいてCuTSを評価し、より汎用的でありながら、いくつかのタスクにおける最先端の専門的アプローチより優れている。
特に、同じ公平度レベルでは、アダルトデータセット上での公正な合成データ生成の最先端よりも、下流の精度が2.3%向上する。
関連論文リスト
- Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Differentially Private Tabular Data Synthesis using Large Language Models [6.6376578496141585]
本稿ではDP-LLMTGenについて紹介する。
DP-LLMTGenは、2段階の微調整手順を用いて、センシティブなデータセットをモデル化する。
微調整LDMをサンプリングすることで合成データを生成する。
論文 参考訳(メタデータ) (2024-06-03T15:43:57Z) - Inference With Combining Rules From Multiple Differentially Private Synthetic Datasets [0.0]
DIPSデータセットの分析にルールを組み合わせることによって,プロシージャの適用性を検討する。
我々の経験的実験により、提案された組み合わせルールは、特定の状況において正確な推論を提供するが、すべての場合において正確な推論はできないことが示された。
論文 参考訳(メタデータ) (2024-05-08T02:33:35Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - TarGEN: Targeted Data Generation with Large Language Models [54.1093098278564]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Customized Load Profiles Synthesis for Electricity Customers Based on
Conditional Diffusion Models [10.283633619387782]
異種顧客のための条件付き拡散モデルに基づく新しい負荷プロファイル合成法を提案する。
条件付き拡散モデルを実装するために,残差層を積み重ねた雑音推定モデルを設計する。
提案手法の有効性と優位性を検証するために,公開データセットに基づく事例研究を行った。
論文 参考訳(メタデータ) (2023-04-24T13:14:31Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Improving Correlation Capture in Generating Imbalanced Data using
Differentially Private Conditional GANs [2.2265840715792735]
DP-CGANSは,データ変換,サンプリング,コンディショニング,ネットワークトレーニングにより,現実的かつプライバシ保護データを生成する,微分プライベートな条件付きGANフレームワークである。
統計的類似性,機械学習性能,プライバシ測定の点から,3つの公開データセットと2つの実世界の個人健康データセットの最先端生成モデルを用いて,我々のモデルを広範囲に評価した。
論文 参考訳(メタデータ) (2022-06-28T06:47:27Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Synthesizing Property & Casualty Ratemaking Datasets using Generative
Adversarial Networks [2.2649197740853677]
秘密のオリジナルデータセットから合成保険データセットを構築することができるGAN(Generative Adversarial Network)の3種類の設計方法を示す。
透明性のために、これらのアプローチは、公開データセット、フランスのモーターサードパーティの負債データを使って説明されている。
MC-WGAN-GPは最良のデータを合成し、CTGANは最も使いやすく、MNCDP-GANは差分プライバシーを保証する。
論文 参考訳(メタデータ) (2020-08-13T21:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。