論文の概要: Does Training with Synthetic Data Truly Protect Privacy?
- arxiv url: http://arxiv.org/abs/2502.12976v1
- Date: Tue, 18 Feb 2025 15:56:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:07:23.356730
- Title: Does Training with Synthetic Data Truly Protect Privacy?
- Title(参考訳): 合成データによるトレーニングはプライバシを完全に保護するか?
- Authors: Yunpeng Zhao, Jie Zhang,
- Abstract要約: コアセット選択,データセット蒸留,データフリーな知識蒸留,拡散モデルから生成された合成データという,4つの異なる訓練パラダイムについて検討する。
データプライバシを保護するための実証的なアプローチには、慎重に厳格な評価が必要だと警告する。
- 参考スコア(独自算出の注目度): 2.793318238046947
- License:
- Abstract: As synthetic data becomes increasingly popular in machine learning tasks, numerous methods--without formal differential privacy guarantees--use synthetic data for training. These methods often claim, either explicitly or implicitly, to protect the privacy of the original training data. In this work, we explore four different training paradigms: coreset selection, dataset distillation, data-free knowledge distillation, and synthetic data generated from diffusion models. While all these methods utilize synthetic data for training, they lead to vastly different conclusions regarding privacy preservation. We caution that empirical approaches to preserving data privacy require careful and rigorous evaluation; otherwise, they risk providing a false sense of privacy.
- Abstract(参考訳): 合成データが機械学習タスクでますます普及するにつれて、正式な差分プライバシー保証なしでは、トレーニングに合成データを使用する方法が数多く存在する。
これらの方法は、しばしば、明示的または暗黙的に、元のトレーニングデータのプライバシーを保護するために主張する。
本研究では,コアセット選択,データセット蒸留,データフリーな知識蒸留,拡散モデルから生成された合成データという,4つの異なる訓練パラダイムについて検討する。
これらの手法はすべて、学習に合成データを利用するが、プライバシー保護に関する結論は大きく異なる。
データプライバシを保存するための実証的なアプローチには、慎重に厳格な評価が必要です。
関連論文リスト
- Synthetic Data Privacy Metrics [2.1213500139850017]
我々は、敵攻撃のシミュレーションを含む人気のある指標の長所と短所を概観する。
また、生成モデルを修正して、作成するデータのプライバシを高めるための現在のベストプラクティスについてもレビューします。
論文 参考訳(メタデータ) (2025-01-07T17:02:33Z) - Activity Recognition on Avatar-Anonymized Datasets with Masked Differential Privacy [64.32494202656801]
プライバシを保存するコンピュータビジョンは、機械学習と人工知能において重要な問題である。
本稿では,ビデオデータセット中の感性のある被験者を文脈内の合成アバターに置き換える匿名化パイプラインを提案する。
また、匿名化されていないがプライバシーに敏感な背景情報を保護するため、MaskDPを提案する。
論文 参考訳(メタデータ) (2024-10-22T15:22:53Z) - Privacy-Preserving Student Learning with Differentially Private Data-Free Distillation [35.37005050907983]
プライバシーを保護したディープラーニングモデルを学習するための効果的な教師学生学習手法を提案する。
データプライバシを公開することなく、モデルトレーニングのために大量の合成データを生成することができる。
学生は、プライベートレーベルの監督の下で、合成データに基づいて訓練される。
論文 参考訳(メタデータ) (2024-09-19T01:00:18Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Practical considerations on using private sampling for synthetic data [1.3654846342364308]
合成データ生成の異なるプライバシは、合成データを自由に使用しながらプライバシを保存する能力のために、多くの注目を集めている。
プライベートサンプリングは、プライバシーと正確性のために厳密な境界を持つ微分プライベートな合成データを構築する最初のノイズフリー手法である。
本稿では,プライベートサンプリングアルゴリズムの実装と,実例における制約の現実性について議論する。
論文 参考訳(メタデータ) (2023-12-12T10:20:04Z) - SoK: Privacy-Preserving Data Synthesis [72.92263073534899]
本稿では,プライバシ保護データ合成(PPDS)に注目し,その分野の総合的な概要,分析,議論を行う。
PPDSでは,統計的手法と深層学習(DL)に基づく手法の2つの顕著な研究を統一するマスターレシピを作成した。
論文 参考訳(メタデータ) (2023-07-05T08:29:31Z) - Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-17T12:23:38Z) - Differentially Private Synthetic Data Generation via
Lipschitz-Regularised Variational Autoencoders [3.7463972693041274]
生成モデルが個々のトレーニング記録の多くの詳細を記憶する傾向があることは、しばしば見落とされがちである。
本稿では,生成モデルにおける本質を直接活用するデータ生成手法について検討する。
論文 参考訳(メタデータ) (2023-04-22T07:24:56Z) - Certified Data Removal in Sum-Product Networks [78.27542864367821]
収集したデータの削除は、データのプライバシを保証するのに不十分であることが多い。
UnlearnSPNは、訓練された総生産ネットワークから単一データポイントの影響を取り除くアルゴリズムである。
論文 参考訳(メタデータ) (2022-10-04T08:22:37Z) - The Privacy Onion Effect: Memorization is Relative [76.46529413546725]
もっとも脆弱な外接点の"層"を取り除くことで、前もって安全だった点の新たな層を同じ攻撃に晒す。
これは、機械学習のようなプライバシー強化技術が、他のユーザーのプライバシーに悪影響を及ぼす可能性を示唆している。
論文 参考訳(メタデータ) (2022-06-21T15:25:56Z) - Synthetic Data -- Anonymisation Groundhog Day [4.694549066382216]
本稿では,合成データ公開におけるプライバシ向上の定量的評価について述べる。
合成データは、推論攻撃を防ぎ、データの有用性を保たないことを示す。
従来の匿名化とは対照的に、合成データ公開のプライバシーとユーティリティのトレードオフは予測が難しい。
論文 参考訳(メタデータ) (2020-11-13T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。