論文の概要: DPDSyn: Improving Differentially Private Dataset Synthesis for Model Training by Downstream Task Guidance
- arxiv url: http://arxiv.org/abs/2604.15660v1
- Date: Fri, 17 Apr 2026 03:27:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.721432
- Title: DPDSyn: Improving Differentially Private Dataset Synthesis for Model Training by Downstream Task Guidance
- Title(参考訳): DPDSyn:下流タスクガイダンスによるモデルトレーニングのための微分プライベートデータセット合成の改善
- Authors: Mingxuan Jia, Wen Huang, Weixin Zhao, Xingyi Wang, Jian Peng, Zhishuo Zhang,
- Abstract要約: 我々は、元のプライベートデータセット上の下流タスクのための微分プライベートAIモデルをトレーニングし、トレーニングされたモデルを使用してデータセットを合成する。
提案するDPDSynは, 精度が2.40倍, 合成効率が333.73倍の8つの最先端ベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 6.939613890822898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to synthesize a dataset while achieving differential privacy for AI model training is a meaningful but challenging problem. To address this problem, state-of-the-art methods first select original private dataset's multiple low-dimensional distributions that have the potential to approximate the distribution of original private dataset with high precision, and then synthesize a dataset obeying all selected low-dimensional distributions as the synthetic dataset. However, it is difficult to select suitable low-dimensional distributions, which in turn degrades the data utility of resulting synthetic dataset. To improve differentially private dataset synthesis, we propose to train a differentially private AI model for downstream tasks on the original private dataset and utilize the trained model to synthesize datasets. In particular, on the one hand, the AI model satisfies differential privacy so no matter how to use the model does not disclose private information of original private dataset. On the other hand, the AI model is trained to complete the downstream task so the AI model preserves critical information for completing downstream tasks. We utilize the AI model to synthesize datasets to achieve the goal of improving data utility while preserving privacy. Empirical evaluations on four benchmark datasets demonstrate that our proposed DPDSyn consistently outperforms eight state-of-the-art baselines with a maximum improvement of 2.40x in accuracy and 333.73x in synthesis efficiency. Further experiments also validate that DPDSyn has strong scalability across varying data scales.
- Abstract(参考訳): AIモデルのトレーニングにおいて、差分プライバシーを達成しながらデータセットをどうやって合成するかは、有意義だが難しい問題である。
この問題を解決するために、最先端の手法はまず、元のプライベートデータセットの分布を高精度に近似する可能性を持つ、元のプライベートデータセットの複数の低次元分布を選択し、次に、選択された低次元分布を合成データセットとして従うデータセットを合成する。
しかし、適切な低次元分布を選択することは困難であり、結果として合成データセットのデータの有用性が低下する。
差分プライベートなデータセット合成を改善するために,従来のプライベートデータセット上での下流タスクのための差分プライベートなAIモデルをトレーニングし,トレーニングされたモデルを用いてデータセットを合成する手法を提案する。
特に、AIモデルは差分プライバシを満たすため、モデルの使用方法に関わらず、オリジナルのプライベートデータセットのプライベート情報を開示しない。
一方、AIモデルは、下流タスクを完了させるために訓練され、下流タスクを完了するための重要な情報をAIモデルが保持する。
AIモデルを使用してデータセットを合成し、プライバシを保ちながらデータユーティリティを改善するという目標を達成する。
4つのベンチマークデータセットの実証評価により,提案するDPDSynの精度は2.40倍,合成効率は333.73倍に向上した。
さらに実験では、DPDSynが様々なデータスケールにわたって強力なスケーラビリティを持っていることも確認されている。
関連論文リスト
- TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Differentially Private Data Generation with Missing Data [17.705879041365936]
我々は、差分プライバシー(DP)合成データの問題点を、欠落した値で定式化する。
本稿では,合成データの有効性を大幅に向上させる3つの効果的な適応戦略を提案する。
全体として、この研究は、プライベートな合成データ生成アルゴリズムを使用する際の課題と機会をより深く理解することに貢献している。
論文 参考訳(メタデータ) (2023-10-17T19:41:54Z) - Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。
実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文 参考訳(メタデータ) (2023-10-15T04:24:42Z) - Harnessing large-language models to generate private synthetic text [18.863579044812703]
DP-SGDのような異なるプライベートトレーニングアルゴリズムは、トレーニングされたモデルがプライベート情報を公開しないことを保証することで、センシティブなトレーニングデータを保護する。
本稿では、原データに対して差分的にプライベートな合成データを生成し、その合成データに基づいてモデルを非プライベートに訓練する代替手法について検討する。
プライベートな合成データを作るのは プライベートなモデルを訓練するより はるかに難しい
論文 参考訳(メタデータ) (2023-06-02T16:59:36Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - An Analysis of the Deployment of Models Trained on Private Tabular
Synthetic Data: Unexpected Surprises [4.129847064263057]
異なるプライベート(DP)合成データセットは、機械学習モデルをトレーニングするための強力なアプローチである。
差分プライベートな合成データ生成が分類に与える影響について検討する。
論文 参考訳(メタデータ) (2021-06-15T21:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。