論文の概要: Privacy Distillation: Reducing Re-identification Risk of Multimodal
Diffusion Models
- arxiv url: http://arxiv.org/abs/2306.01322v1
- Date: Fri, 2 Jun 2023 07:44:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 16:24:04.698068
- Title: Privacy Distillation: Reducing Re-identification Risk of Multimodal
Diffusion Models
- Title(参考訳): プライバシ蒸留:マルチモーダル拡散モデルの再同定リスクの低減
- Authors: Virginia Fernandez, Pedro Sanchez, Walter Hugo Lopez Pinaya, Grzegorz
Jacenk\'ow, Sotirios A. Tsaftaris, Jorge Cardoso
- Abstract要約: プライバシ蒸留(Privacy Distillation)は、テキストから画像への生成モデルで、識別可能なデータに公開することなく、別のモデルを教えることができるフレームワークである。
本手法は,(1)実データ上で第1拡散モデルをトレーニングし,(2)本モデルを用いて合成データセットを生成し,(3)再構成された合成データに対して第2拡散モデルをトレーニングする。
- 参考スコア(独自算出の注目度): 11.659461421660613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation in neural networks refers to compressing a large model
or dataset into a smaller version of itself. We introduce Privacy Distillation,
a framework that allows a text-to-image generative model to teach another model
without exposing it to identifiable data. Here, we are interested in the
privacy issue faced by a data provider who wishes to share their data via a
multimodal generative model. A question that immediately arises is ``How can a
data provider ensure that the generative model is not leaking identifiable
information about a patient?''. Our solution consists of (1) training a first
diffusion model on real data (2) generating a synthetic dataset using this
model and filtering it to exclude images with a re-identifiability risk (3)
training a second diffusion model on the filtered synthetic data only. We
showcase that datasets sampled from models trained with privacy distillation
can effectively reduce re-identification risk whilst maintaining downstream
performance.
- Abstract(参考訳): ニューラルネットワークにおける知識蒸留とは、大きなモデルやデータセットをより小さなバージョンに圧縮することを指す。
我々は,テキストから画像への生成モデルが識別可能なデータに露出することなく,別のモデルを教えることを可能にするフレームワークであるprivacy distillationを紹介する。
ここで私たちは、マルチモーダル生成モデルを通じてデータを共有したいデータプロバイダが直面するプライバシー問題に興味を持っています。
データプロバイダは、生成モデルが患者に関する識別可能な情報を漏洩していないことをどうやって保証できるのか?
本手法は,(1)実データ上で第1拡散モデルをトレーニングし,(2)本モデルを用いて合成データセットを生成し,(3)再構成された合成データに対して第2拡散モデルをトレーニングする。
プライバシ蒸留で訓練されたモデルから抽出したデータセットは、下流の性能を維持しながら、再識別リスクを効果的に低減できることを示す。
関連論文リスト
- Towards Reliable Verification of Unauthorized Data Usage in Personalized Text-to-Image Diffusion Models [23.09033991200197]
新しいパーソナライズ技術は、特定のテーマやスタイルのイメージを作成するために、事前訓練されたベースモデルをカスタマイズするために提案されている。
このような軽量なソリューションは、パーソナライズされたモデルが不正なデータからトレーニングされているかどうかに関して、新たな懸念を生じさせる。
我々は、ブラックボックスパーソナライズされたテキスト・ツー・イメージ拡散モデルにおいて、不正なデータ使用を積極的に追跡する新しい手法であるSIRENを紹介する。
論文 参考訳(メタデータ) (2024-10-14T12:29:23Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Learning Differentially Private Diffusion Models via Stochastic Adversarial Distillation [20.62325580203137]
DP-SADは, 逆蒸留法により個人拡散モデルを訓練する。
画像の質を向上するために,画像が教師と学生のどちらであるかを識別する識別器を導入する。
論文 参考訳(メタデータ) (2024-08-27T02:29:29Z) - Gradient Inversion of Federated Diffusion Models [4.1355611383748005]
拡散モデルは、非常に高解像度の画像データを生成する欠陥生成モデルになりつつある。
本稿では,勾配反転攻撃のプライバシーリスクについて検討する。
本稿では,未知データの最適化をコーディネートする三重最適化GIDM+を提案する。
論文 参考訳(メタデータ) (2024-05-30T18:00:03Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Shake to Leak: Fine-tuning Diffusion Models Can Amplify the Generative Privacy Risk [60.36852134501251]
私たちは新しいプライバシーリスク、Shake-to-Leak(S2L)を明らかにしました。
最悪の場合、S2Lは拡散モデルにおける最先端の会員推論攻撃(MIA)を5.4%のAUCで増幅することができる。
この発見は、拡散モデルによるプライバシーリスクが、これまで認識されていたよりもさらに深刻であることを示している。
論文 参考訳(メタデータ) (2024-03-14T14:48:37Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Phoenix: A Federated Generative Diffusion Model [6.09170287691728]
大規模な集中型データセットで生成モデルをトレーニングすることで、データのプライバシやセキュリティ、アクセシビリティといった面での課題が発生する可能性がある。
本稿では,フェデレートラーニング(FL)技術を用いて,複数のデータソースにまたがる拡散確率モデル(DDPM)の学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T01:43:09Z) - Extracting Training Data from Diffusion Models [77.11719063152027]
拡散モデルはトレーニングデータから個々の画像を記憶し,生成時に出力することを示す。
生成とフィルタのパイプラインを用いて、最先端のモデルから数千以上のトレーニング例を抽出する。
さまざまな設定で何百もの拡散モデルをトレーニングし、モデリングとデータ決定の違いがプライバシに与える影響を分析する。
論文 参考訳(メタデータ) (2023-01-30T18:53:09Z) - Privacy-preserving Generative Framework Against Membership Inference
Attacks [10.791983671720882]
我々は、メンバーシップ推論攻撃に対するプライバシー保護のための生成フレームワークを設計する。
まず、VAEモデルを通してソースデータを潜時空間にマッピングして潜時符号を取得し、次に潜時符号上でメートル法プライバシーを満たすノイズ処理を行い、最終的にVAEモデルを用いて合成データを再構成する。
実験により、新たに生成した合成データを用いて学習した機械学習モデルは、メンバーシップ推論攻撃に効果的に抵抗でき、高いユーティリティを維持できることを示した。
論文 参考訳(メタデータ) (2022-02-11T06:13:30Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。