論文の概要: Privacy Distillation: Reducing Re-identification Risk of Multimodal
Diffusion Models
- arxiv url: http://arxiv.org/abs/2306.01322v1
- Date: Fri, 2 Jun 2023 07:44:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 16:24:04.698068
- Title: Privacy Distillation: Reducing Re-identification Risk of Multimodal
Diffusion Models
- Title(参考訳): プライバシ蒸留:マルチモーダル拡散モデルの再同定リスクの低減
- Authors: Virginia Fernandez, Pedro Sanchez, Walter Hugo Lopez Pinaya, Grzegorz
Jacenk\'ow, Sotirios A. Tsaftaris, Jorge Cardoso
- Abstract要約: プライバシ蒸留(Privacy Distillation)は、テキストから画像への生成モデルで、識別可能なデータに公開することなく、別のモデルを教えることができるフレームワークである。
本手法は,(1)実データ上で第1拡散モデルをトレーニングし,(2)本モデルを用いて合成データセットを生成し,(3)再構成された合成データに対して第2拡散モデルをトレーニングする。
- 参考スコア(独自算出の注目度): 11.659461421660613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation in neural networks refers to compressing a large model
or dataset into a smaller version of itself. We introduce Privacy Distillation,
a framework that allows a text-to-image generative model to teach another model
without exposing it to identifiable data. Here, we are interested in the
privacy issue faced by a data provider who wishes to share their data via a
multimodal generative model. A question that immediately arises is ``How can a
data provider ensure that the generative model is not leaking identifiable
information about a patient?''. Our solution consists of (1) training a first
diffusion model on real data (2) generating a synthetic dataset using this
model and filtering it to exclude images with a re-identifiability risk (3)
training a second diffusion model on the filtered synthetic data only. We
showcase that datasets sampled from models trained with privacy distillation
can effectively reduce re-identification risk whilst maintaining downstream
performance.
- Abstract(参考訳): ニューラルネットワークにおける知識蒸留とは、大きなモデルやデータセットをより小さなバージョンに圧縮することを指す。
我々は,テキストから画像への生成モデルが識別可能なデータに露出することなく,別のモデルを教えることを可能にするフレームワークであるprivacy distillationを紹介する。
ここで私たちは、マルチモーダル生成モデルを通じてデータを共有したいデータプロバイダが直面するプライバシー問題に興味を持っています。
データプロバイダは、生成モデルが患者に関する識別可能な情報を漏洩していないことをどうやって保証できるのか?
本手法は,(1)実データ上で第1拡散モデルをトレーニングし,(2)本モデルを用いて合成データセットを生成し,(3)再構成された合成データに対して第2拡散モデルをトレーニングする。
プライバシ蒸留で訓練されたモデルから抽出したデータセットは、下流の性能を維持しながら、再識別リスクを効果的に低減できることを示す。
関連論文リスト
- Gradient Inversion of Federated Diffusion Models [4.1355611383748005]
拡散モデルは、非常に高解像度の画像データを生成する欠陥生成モデルになりつつある。
本稿では,勾配反転攻撃のプライバシーリスクについて検討する。
本稿では,未知データの最適化をコーディネートする三重最適化GIDM+を提案する。
論文 参考訳(メタデータ) (2024-05-30T18:00:03Z) - Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Shake to Leak: Fine-tuning Diffusion Models Can Amplify the Generative Privacy Risk [60.36852134501251]
私たちは新しいプライバシーリスク、Shake-to-Leak(S2L)を明らかにしました。
最悪の場合、S2Lは拡散モデルにおける最先端の会員推論攻撃(MIA)を5.4%のAUCで増幅することができる。
この発見は、拡散モデルによるプライバシーリスクが、これまで認識されていたよりもさらに深刻であることを示している。
論文 参考訳(メタデータ) (2024-03-14T14:48:37Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Towards Few-Call Model Stealing via Active Self-Paced Knowledge
Distillation and Diffusion-Based Image Generation [33.60710287553274]
そこで本研究では,ブラックボックスの分類モデルを,トレーニングデータやアーキテクチャ,重みなどにアクセスせずにコピーすることを提案する。
蒸留時にプロキシデータを最大限に活用するために,新たなアクティブなセルフペース学習フレームワークを採用している。
2つのデータセットに対する実験結果から,マルチコールモデル抽出シナリオにおける2つの最先端手法に対するフレームワークの優位性が確認された。
論文 参考訳(メタデータ) (2023-09-29T19:09:27Z) - Phoenix: A Federated Generative Diffusion Model [6.09170287691728]
大規模な集中型データセットで生成モデルをトレーニングすることで、データのプライバシやセキュリティ、アクセシビリティといった面での課題が発生する可能性がある。
本稿では,フェデレートラーニング(FL)技術を用いて,複数のデータソースにまたがる拡散確率モデル(DDPM)の学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T01:43:09Z) - Black-box Source-free Domain Adaptation via Two-stage Knowledge
Distillation [8.224874938178633]
ソースのないドメイン適応は、事前訓練されたソースモデルとターゲットデータのみを使用して、ディープニューラルネットワークを適用することを目的としている。
ソースモデルにアクセスするには ソースデータを漏洩する可能性がある 患者のプライバシが明らかになる
ブラックボックスのソースフリーなドメイン適応では、ソースモデルとターゲットデータの出力のみが利用可能である。
論文 参考訳(メタデータ) (2023-05-13T10:00:24Z) - Extracting Training Data from Diffusion Models [77.11719063152027]
拡散モデルはトレーニングデータから個々の画像を記憶し,生成時に出力することを示す。
生成とフィルタのパイプラインを用いて、最先端のモデルから数千以上のトレーニング例を抽出する。
さまざまな設定で何百もの拡散モデルをトレーニングし、モデリングとデータ決定の違いがプライバシに与える影響を分析する。
論文 参考訳(メタデータ) (2023-01-30T18:53:09Z) - Privacy-preserving Generative Framework Against Membership Inference
Attacks [10.791983671720882]
我々は、メンバーシップ推論攻撃に対するプライバシー保護のための生成フレームワークを設計する。
まず、VAEモデルを通してソースデータを潜時空間にマッピングして潜時符号を取得し、次に潜時符号上でメートル法プライバシーを満たすノイズ処理を行い、最終的にVAEモデルを用いて合成データを再構成する。
実験により、新たに生成した合成データを用いて学習した機械学習モデルは、メンバーシップ推論攻撃に効果的に抵抗でき、高いユーティリティを維持できることを示した。
論文 参考訳(メタデータ) (2022-02-11T06:13:30Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。