論文の概要: DP-2Stage: Adapting Language Models as Differentially Private Tabular Data Generators
- arxiv url: http://arxiv.org/abs/2412.02467v1
- Date: Tue, 03 Dec 2024 14:10:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:50:56.386267
- Title: DP-2Stage: Adapting Language Models as Differentially Private Tabular Data Generators
- Title(参考訳): DP-2Stage:個人差分データジェネレータとしての言語モデルへの適応
- Authors: Tejumade Afonja, Hui-Po Wang, Raouf Kerkouche, Mario Fritz,
- Abstract要約: 差分プライベートデータ生成のための2段階微調整フレームワークを提案する。
最初のステージでは、擬似データセットで非プライベートな微調整が行われ、続いてプライベートデータセットでDP微調整が行われる。
提案手法は,DPコンテキストにおいて直接微調整されたLCMと比較して,様々な設定やメトリクスにおける性能向上を図っている。
- 参考スコア(独自算出の注目度): 47.86275136491794
- License:
- Abstract: Generating tabular data under differential privacy (DP) protection ensures theoretical privacy guarantees but poses challenges for training machine learning models, primarily due to the need to capture complex structures under noisy supervision signals. Recently, pre-trained Large Language Models (LLMs) -- even those at the scale of GPT-2 -- have demonstrated great potential in synthesizing tabular data. However, their applications under DP constraints remain largely unexplored. In this work, we address this gap by applying DP techniques to the generation of synthetic tabular data. Our findings shows that LLMs face difficulties in generating coherent text when fine-tuned with DP, as privacy budgets are inefficiently allocated to non-private elements like table structures. To overcome this, we propose \ours, a two-stage fine-tuning framework for differentially private tabular data generation. The first stage involves non-private fine-tuning on a pseudo dataset, followed by DP fine-tuning on a private dataset. Our empirical results show that this approach improves performance across various settings and metrics compared to directly fine-tuned LLMs in DP contexts. We release our code and setup at https://github.com/tejuafonja/DP-2Stage.
- Abstract(参考訳): 差分プライバシー(DP)保護下での表型データの生成は、理論的プライバシーを保証するが、主にノイズの多い監視信号の下で複雑な構造をキャプチャする必要があるため、マシンラーニングモデルをトレーニングする上での課題を生じさせる。
近年,GPT-2の規模であるLLM(Pre-trained Large Language Models)は,表データの合成に大きな可能性を示している。
しかし、DP制約下での応用はほとんど未検討のままである。
本研究では,合成表データの生成にDP手法を適用することで,このギャップに対処する。
この結果から,LDMは表構造などの非私的要素にプライバシー予算を非効率に割り当てるため,DPとの微調整時にコヒーレントテキストを生成するのが困難であることが示唆された。
そこで本研究では,2段階の微調整フレームワークであるShaoursを提案する。
最初のステージでは、擬似データセットで非プライベートな微調整が行われ、続いてプライベートデータセットでDP微調整が行われる。
実験結果から,DPコンテキストにおいて直接微調整されたLCMに比べて,様々な設定やメトリクス間での性能が向上することが示唆された。
コードとセットアップはhttps://github.com/tejuafonja/DP-2Stage.comで公開しています。
関連論文リスト
- Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - Differentially Private Tabular Data Synthesis using Large Language Models [6.6376578496141585]
本稿ではDP-LLMTGenについて紹介する。
DP-LLMTGenは、2段階の微調整手順を用いて、センシティブなデータセットをモデル化する。
微調整LDMをサンプリングすることで合成データを生成する。
論文 参考訳(メタデータ) (2024-06-03T15:43:57Z) - Enhancing Scalability of Metric Differential Privacy via Secret Dataset Partitioning and Benders Decomposition [1.283608820493284]
メトリック微分プライバシー(mDP)は、新しいデータパラダイムとして機能するために、差分プライバシー(DP)の概念を拡張します。
道路網やグリッドマップ上の単語埋め込みや位置情報として符号化されたテキストデータなど、一般的なメートル法空間で表される秘密データを保護するように設計されている。
論文 参考訳(メタデータ) (2024-05-07T14:19:09Z) - DP-TabICL: In-Context Learning with Differentially Private Tabular Data [12.814878223075437]
In-context Learning (ICL)は、大規模言語モデル(LLM)が新しいタスクに適応できるようにする。
LLMは、プロンプトに含まれる情報をリークすることができる。
この研究は、差分プライバシー(DP)の使用方法に関する最初の調査として機能する。
ローカル (LDP-TabICL) とグローバル (GDP-TabICL) の2つのプライベート ICL フレームワークを立案する。
論文 参考訳(メタデータ) (2024-03-08T21:19:01Z) - Privacy Amplification for the Gaussian Mechanism via Bounded Support [64.86780616066575]
インスタンスごとの差分プライバシー(pDP)やフィッシャー情報損失(FIL)といったデータ依存のプライバシ会計フレームワークは、固定されたトレーニングデータセット内の個人に対してきめ細かいプライバシー保証を提供する。
本稿では,データ依存会計下でのプライバシ保証を向上することを示すとともに,バウンドサポートによるガウス機構の簡単な修正を提案する。
論文 参考訳(メタデータ) (2024-03-07T21:22:07Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - DP-SGD vs PATE: Which Has Less Disparate Impact on GANs? [0.0]
我々は、ディープラーニング、DP-SGD、PATEの2つのよく知られたDPフレームワークで訓練されたGANを、異なるデータ不均衡設定で比較する。
我々の実験は、PATEがDP-SGDと異なり、プライバシーとユーティリティのトレードオフは単調に減少していないことを一貫して示している。
論文 参考訳(メタデータ) (2021-11-26T17:25:46Z) - Don't Generate Me: Training Differentially Private Generative Models
with Sinkhorn Divergence [73.14373832423156]
そこで我々はDP-Sinkhornを提案する。DP-Sinkhornは個人データからデータ分布を差分プライバシで学習するための新しいトランスポートベース生成手法である。
差分的にプライベートな生成モデルを訓練するための既存のアプローチとは異なり、我々は敵の目的に頼らない。
論文 参考訳(メタデータ) (2021-11-01T18:10:21Z) - DTGAN: Differential Private Training for Tabular GANs [6.174448419090292]
本稿では,DTGAN_GとDTGAN_Dの2つの変種からなる条件付きワッサースタインGANであるDTGANを提案する。
我々は,DPの理論的プライバシー保証を,メンバーシップや属性推論攻撃に対して実証的に評価する。
その結果,DP-SGD フレームワークは PATE よりも優れており,DP 判別器の方が訓練収束に最適であることが示唆された。
論文 参考訳(メタデータ) (2021-07-06T10:28:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。