論文の概要: Quantifying Sample Anonymity in Score-Based Generative Models with
Adversarial Fingerprinting
- arxiv url: http://arxiv.org/abs/2306.01363v1
- Date: Fri, 2 Jun 2023 08:37:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 16:04:04.204361
- Title: Quantifying Sample Anonymity in Score-Based Generative Models with
Adversarial Fingerprinting
- Title(参考訳): 逆フィンガープリントを用いたスコアベース生成モデルにおけるサンプル匿名性の定量化
- Authors: Mischa Dombrowski and Bernhard Kainz
- Abstract要約: プライベートデータ上での拡散モデルをトレーニングし、生データセットではなくモデルと重みを広めることで、革新的な大規模データ共有戦略の道を開く。
本稿では,サンプリング過程において,識別可能な訓練画像の再生確率の上限を推定する手法を提案する。
以上の結果から,モデルが不注意にトレーニングされた場合,プライバシブリーチング画像はサンプリング時に再生されることがわかった。
- 参考スコア(独自算出の注目度): 3.8933108317492167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in score-based generative models have led to a huge spike in
the development of downstream applications using generative models ranging from
data augmentation over image and video generation to anomaly detection. Despite
publicly available trained models, their potential to be used for privacy
preserving data sharing has not been fully explored yet. Training diffusion
models on private data and disseminating the models and weights rather than the
raw dataset paves the way for innovative large-scale data-sharing strategies,
particularly in healthcare, where safeguarding patients' personal health
information is paramount. However, publishing such models without individual
consent of, e.g., the patients from whom the data was acquired, necessitates
guarantees that identifiable training samples will never be reproduced, thus
protecting personal health data and satisfying the requirements of policymakers
and regulatory bodies. This paper introduces a method for estimating the upper
bound of the probability of reproducing identifiable training images during the
sampling process. This is achieved by designing an adversarial approach that
searches for anatomic fingerprints, such as medical devices or dermal art,
which could potentially be employed to re-identify training images. Our method
harnesses the learned score-based model to estimate the probability of the
entire subspace of the score function that may be utilized for one-to-one
reproduction of training samples. To validate our estimates, we generate
anomalies containing a fingerprint and investigate whether generated samples
from trained generative models can be uniquely mapped to the original training
samples. Overall our results show that privacy-breaching images are reproduced
at sampling time if the models were trained without care.
- Abstract(参考訳): 近年のスコアベース生成モデルの発展により、画像やビデオ生成によるデータ増大から異常検出に至るまで、データ生成モデルを用いた下流アプリケーションの開発が急増している。
公開されているトレーニングモデルにもかかわらず、プライバシ保護データ共有に使用される可能性はまだ十分に検討されていない。
個人データでの拡散モデルのトレーニングと、生のデータセットではなくモデルと重み付けの分散は、患者の個人的健康情報を最重要視する医療において、革新的な大規模データ共有戦略への道を開く。
しかし、データを取得した患者の同意なく、そのようなモデルを公開するためには、特定可能なトレーニングサンプルが決して再生されないことを保証し、個人の健康データを保護し、政策立案者や規制機関の要求を満たす必要がある。
本稿では,サンプリング過程において,識別可能な訓練画像の再生確率の上限を推定する手法を提案する。
これは、医療機器や皮膚アートなどの解剖学的指紋を検索し、トレーニング画像の再識別に使用できるような、逆向きのアプローチを設計することによって達成される。
本手法は,学習したスコアベースモデルを用いて,トレーニングサンプルの1対1再生に使用できるスコア関数のサブスペース全体の確率を推定する。
推定値を検証するため,指紋を含む異常を生成し,トレーニングされた生成モデルから生成されたサンプルを元のトレーニングサンプルに一意にマッピングできるかどうかを調べる。
その結果,モデルが注意なくトレーニングされた場合,プライバシブリーチング画像はサンプリング時に再生されることがわかった。
関連論文リスト
- Towards Reliable Verification of Unauthorized Data Usage in Personalized Text-to-Image Diffusion Models [23.09033991200197]
新しいパーソナライズ技術は、特定のテーマやスタイルのイメージを作成するために、事前訓練されたベースモデルをカスタマイズするために提案されている。
このような軽量なソリューションは、パーソナライズされたモデルが不正なデータからトレーニングされているかどうかに関して、新たな懸念を生じさせる。
我々は、ブラックボックスパーソナライズされたテキスト・ツー・イメージ拡散モデルにおいて、不正なデータ使用を積極的に追跡する新しい手法であるSIRENを紹介する。
論文 参考訳(メタデータ) (2024-10-14T12:29:23Z) - Training Data Attribution: Was Your Model Secretly Trained On Data Created By Mine? [17.714589429503675]
テキスト・ツー・イメージ・モデルに対するインジェクションフリーなトレーニングデータ属性法を提案する。
我々のアプローチでは、異なるサンプルを発見できるアルゴリズムを開発し、それらを固有の透かしとして利用する。
実験により,疑わしいモデルのトレーニングデータのソースを特定する精度が80%以上であることが確認された。
論文 参考訳(メタデータ) (2024-09-24T06:23:43Z) - Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Investigating Data Memorization in 3D Latent Diffusion Models for
Medical Image Synthesis [0.6382686594288781]
光子計数冠状動脈造影および膝磁気共鳴画像データセットを用いた3次元潜時拡散モデルの記憶能力の評価を行った。
以上の結果から,このような潜伏拡散モデルがトレーニングデータを記憶し,記憶化を緩和するための戦略を考案する必要があることが示唆された。
論文 参考訳(メタデータ) (2023-07-03T16:39:28Z) - Private Gradient Estimation is Useful for Generative Modeling [25.777591229903596]
そこで本研究では,サンプルをハミルトン力学で生成し,よく訓練されたネットワークから推定したプライベートデータセットの勾配を推定する手法を提案する。
我々のモデルは256x256の解像度でデータを生成することができる。
論文 参考訳(メタデータ) (2023-05-18T02:51:17Z) - Reconstructing Training Data from Model Gradient, Provably [68.21082086264555]
ランダムに選択されたパラメータ値で1つの勾配クエリからトレーニングサンプルを再構成する。
センシティブなトレーニングデータを示す証明可能な攻撃として、われわれの発見はプライバシーに対する深刻な脅威を示唆している。
論文 参考訳(メタデータ) (2022-12-07T15:32:22Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Leveraging Adversarial Examples to Quantify Membership Information
Leakage [30.55736840515317]
パターン認識モデルにおけるメンバシップ推論の問題に対処する新しいアプローチを開発する。
この量はトレーニングデータに属する可能性を反映していると我々は主張する。
我々の手法は、最先端の戦略に匹敵する、あるいは上回る性能を発揮する。
論文 参考訳(メタデータ) (2022-03-17T19:09:38Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。