論文の概要: Do You Really Need Public Data? Surrogate Public Data for Differential Privacy on Tabular Data
- arxiv url: http://arxiv.org/abs/2504.14368v1
- Date: Sat, 19 Apr 2025 17:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 01:02:38.344274
- Title: Do You Really Need Public Data? Surrogate Public Data for Differential Privacy on Tabular Data
- Title(参考訳): 公開データは本当に必要か? タブラルデータ上の差分プライバシーのために公開データをサロゲートする
- Authors: Shlomi Hod, Lucas Rosenblatt, Julia Stoyanovich,
- Abstract要約: これは、プライバシ損失の予算を消費せず、公開スキーマやメタデータからのみ構築される。
大規模言語モデル(LLM)を用いたサロゲート公開データ生成プロセスを自動化する。
特に,CSVファイルとして直接レコード生成を行う方法と,サンプリングのための自動構造因果モデル(SCM)の構築を提案する。
- 参考スコア(独自算出の注目度): 10.1687640711587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Differentially private (DP) machine learning often relies on the availability of public data for tasks like privacy-utility trade-off estimation, hyperparameter tuning, and pretraining. While public data assumptions may be reasonable in text and image domains, they are less likely to hold for tabular data due to tabular data heterogeneity across domains. We propose leveraging powerful priors to address this limitation; specifically, we synthesize realistic tabular data directly from schema-level specifications - such as variable names, types, and permissible ranges - without ever accessing sensitive records. To that end, this work introduces the notion of "surrogate" public data - datasets generated independently of sensitive data, which consume no privacy loss budget and are constructed solely from publicly available schema or metadata. Surrogate public data are intended to encode plausible statistical assumptions (informed by publicly available information) into a dataset with many downstream uses in private mechanisms. We automate the process of generating surrogate public data with large language models (LLMs); in particular, we propose two methods: direct record generation as CSV files, and automated structural causal model (SCM) construction for sampling records. Through extensive experiments, we demonstrate that surrogate public tabular data can effectively replace traditional public data when pretraining differentially private tabular classifiers. To a lesser extent, surrogate public data are also useful for hyperparameter tuning of DP synthetic data generators, and for estimating the privacy-utility tradeoff.
- Abstract(参考訳): 差分プライベート(DP)機械学習は、プライバシユーティリティのトレードオフ推定やハイパーパラメータチューニング、事前トレーニングといったタスクにおいて、公開データの可用性に依存することが多い。
公開データの仮定はテキストや画像ドメインでは妥当であるが、ドメイン間の表データの異質性のため、表データを保持する可能性が低い。
我々は、この制限に対処するために強力な事前情報を活用することを提案し、具体的には、機密レコードにアクセスすることなく、スキーマレベル仕様(変数名、型、許容範囲など)から直接リアルな表データを合成する。
この研究は、機密データとは独立して生成されるデータセットであり、プライバシ損失の予算を消費せず、公開スキーマやメタデータからのみ構築される。
公開データのサロゲートは、(一般に利用可能な情報によって示される)妥当な統計的仮定を、プライベートなメカニズムで多くのダウンストリームを使用するデータセットにエンコードすることを意図している。
本研究では,大規模言語モデル (LLM) を用いたサロゲート公開データの自動生成プロセス,特にCSVファイルによる直接レコード生成と,データサンプリングのための自動構造因果モデル (SCM) 構築の2つの手法を提案する。
広範にわたる実験により,差分的にプライベートな表型分類器を事前学習する場合に,表型データのサロゲートが従来の表型データを効果的に置き換えることが実証された。
さらに,DP合成データジェネレータのハイパーパラメータチューニングや,プライバシ・ユーティリティ・トレードオフの推定にも,公開データのサロゲートが有用である。
関連論文リスト
- Tabular Data Adapters: Improving Outlier Detection for Unlabeled Private Data [12.092540602813333]
本稿では,未ラベルデータに対するソフトラベルを外乱検出タスクで生成するための新しい手法であるTabular Data Adapters (TDA)を紹介する。
当社のアプローチは、パブリックリサーチモデルと実世界の産業アプリケーションとのギャップを埋めるために、スケーラブルで効率的で費用対効果の高いソリューションを提供します。
論文 参考訳(メタデータ) (2025-04-29T15:38:43Z) - Leveraging Vertical Public-Private Split for Improved Synthetic Data Generation [9.819636361032256]
Differentially Private Synthetic Data Generationは、プライベートおよびセキュアなデータ共有を可能にする重要な手段である。
最近の文献では、少量の公開データが合成データの質を高めるのに役立つシナリオを探求している。
本稿では,水平的公共支援手法を垂直配置に適応させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:59:03Z) - Synthesizing Privacy-Preserving Text Data via Finetuning without Finetuning Billion-Scale LLMs [20.774525687291167]
そこで本稿では,広範囲なプロンプトエンジニアリングや数十億規模の微調整を伴わずに,プライバシ保護型合成データを生成する新しいフレームワークを提案する。
CTCLは、大規模公開データ上で、軽量な140M条件生成器とクラスタリングベースのトピックモデルを事前訓練する。
さらにプライベートドメインに適応するために、トピックモデルがDPヒストグラムを抽出する間、作成したジェネレータは、詳細なテキスト情報のためにプライベートデータに対してDP微調整される。
論文 参考訳(メタデータ) (2025-03-16T04:00:32Z) - Private prediction for large-scale synthetic text generation [28.488459921169905]
大規模言語モデル(LLM)を用いた微分プライベートテキスト生成手法を提案する。
プライベートな予測フレームワークでは、差分プライバシー保証を満たすために出力された合成データのみを必要とする。
論文 参考訳(メタデータ) (2024-07-16T18:28:40Z) - Joint Selection: Adaptively Incorporating Public Information for Private
Synthetic Data [13.56146208014469]
我々は,適応測定フレームワークを拡張して,公開データとプライベートデータとを協調的に選択する機構であるjam-pgmを開発した。
また, ジャム-pgmは, 公用データ分布に偏りがある場合でも, 公用データと非公用データ生成機構の両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-03-12T16:34:07Z) - Privacy Amplification for the Gaussian Mechanism via Bounded Support [64.86780616066575]
インスタンスごとの差分プライバシー(pDP)やフィッシャー情報損失(FIL)といったデータ依存のプライバシ会計フレームワークは、固定されたトレーニングデータセット内の個人に対してきめ細かいプライバシー保証を提供する。
本稿では,データ依存会計下でのプライバシ保証を向上することを示すとともに,バウンドサポートによるガウス機構の簡単な修正を提案する。
論文 参考訳(メタデータ) (2024-03-07T21:22:07Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining [75.25943383604266]
大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-12-13T10:41:12Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - DP2-Pub: Differentially Private High-Dimensional Data Publication with
Invariant Post Randomization [58.155151571362914]
本稿では,2つのフェーズで動作する差分プライベートな高次元データパブリッシング機構(DP2-Pub)を提案する。
属性をクラスタ内凝集度の高い低次元クラスタに分割し、クラスタ間の結合度を低くすることで、適切なプライバシ予算を得ることができる。
また、DP2-Pubメカニズムを、ローカルの差分プライバシーを満たす半正直なサーバでシナリオに拡張します。
論文 参考訳(メタデータ) (2022-08-24T17:52:43Z) - Generating private data with user customization [9.415164800448853]
モバイルデバイスは大量のデータを生成、保存し、機械学習モデルを強化することができる。
しかし、このデータには、データのリリースを防止するデータ所有者特有のプライベート情報が含まれている可能性がある。
有用な情報を保持しつつ、ユーザ固有のプライベート情報とデータとの相関を小さくしたい。
論文 参考訳(メタデータ) (2020-12-02T19:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。