論文の概要: DP-GENG : Differentially Private Dataset Distillation Guided by DP-Generated Data
- arxiv url: http://arxiv.org/abs/2511.09876v1
- Date: Fri, 14 Nov 2025 01:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.543533
- Title: DP-GENG : Differentially Private Dataset Distillation Guided by DP-Generated Data
- Title(参考訳): DP-GENG : DP-Generated Dataによる個人用データセット蒸留法
- Authors: Shuo Shi, Jinghuai Zhang, Shijie Jiang, Chunyi Zhou, Yuyuan Li, Mengying Zhu, Yangyang Wu, Tianyu Du,
- Abstract要約: libnは、DP生成データを活用することで、現在のDP-DDの重要な制限に対処する新しいフレームワークである。
libは、データセットの有用性とメンバシップ推論攻撃に対する堅牢性の両方の観点から、最先端のDP-DDメソッドよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 28.39097659346277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation (DD) compresses large datasets into smaller ones while preserving the performance of models trained on them. Although DD is often assumed to enhance data privacy by aggregating over individual examples, recent studies reveal that standard DD can still leak sensitive information from the original dataset due to the lack of formal privacy guarantees. Existing differentially private (DP)-DD methods attempt to mitigate this risk by injecting noise into the distillation process. However, they often fail to fully leverage the original dataset, resulting in degraded realism and utility. This paper introduces \libn, a novel framework that addresses the key limitations of current DP-DD by leveraging DP-generated data. Specifically, \lib initializes the distilled dataset with DP-generated data to enhance realism. Then, generated data refines the DP-feature matching technique to distill the original dataset under a small privacy budget, and trains an expert model to align the distilled examples with their class distribution. Furthermore, we design a privacy budget allocation strategy to determine budget consumption across DP components and provide a theoretical analysis of the overall privacy guarantees. Extensive experiments show that \lib significantly outperforms state-of-the-art DP-DD methods in terms of both dataset utility and robustness against membership inference attacks, establishing a new paradigm for privacy-preserving dataset distillation.
- Abstract(参考訳): データセット蒸留(DD)は、訓練されたモデルの性能を維持しながら、大きなデータセットを小さなデータセットに圧縮する。
DDは個々のサンプルを集約することでデータのプライバシを高めると仮定されることが多いが、最近の研究によると、標準DDは正式なプライバシ保証が欠如しているため、元のデータセットから機密情報を漏洩することができる。
既存のDP-DD法は、蒸留工程にノイズを注入することで、このリスクを軽減する。
しかし、それらはしばしば元のデータセットを完全に活用できず、結果として劣化したリアリズムとユーティリティをもたらす。
本稿では,DP生成データを活用することにより,現在のDP-DDの限界に対処する新しいフレームワークである \libn を紹介する。
具体的には、蒸留データセットをDP生成データで初期化し、リアリズムを強化する。
そして、生成されたデータはDP-feature matchingテクニックを洗練し、元のデータセットを小さなプライバシ予算で蒸留し、専門家モデルを訓練し、蒸留したサンプルをそれらのクラス分布と整合させる。
さらに,DP コンポーネント間の予算消費を決定するために,プライバシ予算配分戦略を設計し,全体のプライバシー保証に関する理論的分析を行う。
拡張実験により, DP-DD法は, データセットの有用性と, メンバシップ推論攻撃に対する堅牢性の両方の観点から著しく優れており, プライバシー保護型データセット蒸留の新しいパラダイムが確立された。
関連論文リスト
- Improving Noise Efficiency in Privacy-preserving Dataset Distillation [59.57846442477106]
本稿では,最適化からサンプリングを分離してコンバージェンスを向上し,信号品質を向上させる新しいフレームワークを提案する。
CIFAR-10では,従来の最先端手法の蒸留セットサイズを5分の1に減らして,クラス毎50イメージでtextbf10.0%,クラス毎50イメージで textbf8.3%向上した。
論文 参考訳(メタデータ) (2025-08-03T13:15:52Z) - Noise Variance Optimization in Differential Privacy: A Game-Theoretic Approach Through Per-Instance Differential Privacy [7.264378254137811]
差分プライバシー(DP)は、個人をターゲットデータセットに含めることによる分布の変化を観察することにより、プライバシー損失を測定することができる。
DPは、AppleやGoogleのような業界巨人の機械学習におけるデータセットの保護において際立っている。
本稿では,PDPを制約として提案し,各データインスタンスのプライバシ損失を測定し,個々のインスタンスに適したノイズを最適化する。
論文 参考訳(メタデータ) (2024-04-24T06:51:16Z) - Privacy Amplification for the Gaussian Mechanism via Bounded Support [64.86780616066575]
インスタンスごとの差分プライバシー(pDP)やフィッシャー情報損失(FIL)といったデータ依存のプライバシ会計フレームワークは、固定されたトレーニングデータセット内の個人に対してきめ細かいプライバシー保証を提供する。
本稿では,データ依存会計下でのプライバシ保証を向上することを示すとともに,バウンドサポートによるガウス機構の簡単な修正を提案する。
論文 参考訳(メタデータ) (2024-03-07T21:22:07Z) - LLM-based Privacy Data Augmentation Guided by Knowledge Distillation
with a Distribution Tutor for Medical Text Classification [67.92145284679623]
ノイズの多いプライベートディストリビューションをモデル化し,プライバシコストの低いサンプル生成を制御するDPベースのチュータを提案する。
理論的には、モデルのプライバシ保護を分析し、モデルを実証的に検証する。
論文 参考訳(メタデータ) (2024-02-26T11:52:55Z) - Conciliating Privacy and Utility in Data Releases via Individual Differential Privacy and Microaggregation [4.287502453001108]
$epsilon$-Differential Privacy(DP)は、強力なプライバシ保証を提供するよく知られたプライバシモデルである。
被験者にDPと同じ保護を提供しながらデータ歪みを低減させるiDP ($epsilon$-individual differential privacy) を提案する。
本稿では,2次データ解析の精度を著しく低下させることのない保護データを提供しながら,我々のアプローチが強力なプライバシ(小額のepsilon$)を提供することを示す実験について報告する。
論文 参考訳(メタデータ) (2023-12-21T10:23:18Z) - Gradients Look Alike: Sensitivity is Often Overestimated in DP-SGD [44.11069254181353]
DP-SGDのリークは、一般的なベンチマークでトレーニングした場合、多くのデータポイントのプライバシが大幅に低下することを示す。
これは、敵がトレーニングデータセットを十分にコントロールしていない場合、プライバシ攻撃が多くのデータポイントに対して必ず失敗することを意味する。
論文 参考訳(メタデータ) (2023-07-01T11:51:56Z) - DP2-Pub: Differentially Private High-Dimensional Data Publication with
Invariant Post Randomization [58.155151571362914]
本稿では,2つのフェーズで動作する差分プライベートな高次元データパブリッシング機構(DP2-Pub)を提案する。
属性をクラスタ内凝集度の高い低次元クラスタに分割し、クラスタ間の結合度を低くすることで、適切なプライバシ予算を得ることができる。
また、DP2-Pubメカニズムを、ローカルの差分プライバシーを満たす半正直なサーバでシナリオに拡張します。
論文 参考訳(メタデータ) (2022-08-24T17:52:43Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。