論文の概要: Training Data Protection with Compositional Diffusion Models
- arxiv url: http://arxiv.org/abs/2308.01937v4
- Date: Sun, 13 Oct 2024 22:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:05:59.704030
- Title: Training Data Protection with Compositional Diffusion Models
- Title(参考訳): 構成拡散モデルによるデータ保護の訓練
- Authors: Aditya Golatkar, Alessandro Achille, Ashwin Swaminathan, Stefano Soatto,
- Abstract要約: 比較拡散モデル(CDM)は、異なるデータソース上で異なる拡散モデル(またはプロンプト)を訓練する手法である。
個々のモデルは、独立した、異なるタイミングで、異なる分散とドメインでトレーニングすることができる。
各モデルには、トレーニング中に露出したデータのサブセットに関する情報のみが含まれており、いくつかの形式のトレーニングデータ保護を可能にする。
- 参考スコア(独自算出の注目度): 99.46239561159953
- License:
- Abstract: We introduce Compartmentalized Diffusion Models (CDM), a method to train different diffusion models (or prompts) on distinct data sources and arbitrarily compose them at inference time. The individual models can be trained in isolation, at different times, and on different distributions and domains and can be later composed to achieve performance comparable to a paragon model trained on all data simultaneously. Furthermore, each model only contains information about the subset of the data it was exposed to during training, enabling several forms of training data protection. In particular, CDMs enable perfect selective forgetting and continual learning for large-scale diffusion models, allow serving customized models based on the user's access rights. Empirically the quality (FID) of the class-conditional CDMs (8-splits) is within 10% (on fine-grained vision datasets) of a monolithic model (no splits), and allows (8x) faster forgetting compared monolithic model with a maximum FID increase of 1%. When applied to text-to-image generation, CDMs improve alignment (TIFA) by 14.33% over a monolithic model trained on MSCOCO. CDMs also allow determining the importance of a subset of the data (attribution) in generating particular samples, and reduce memorization.
- Abstract(参考訳): 本稿では、異なるデータソース上で異なる拡散モデル(またはプロンプト)を訓練し、推論時に任意に構成する手法であるCompartmentalized Diffusion Models (CDM)を紹介する。
個々のモデルは、異なるタイミングで、異なる分散とドメインで個別にトレーニングすることができ、後にすべてのデータでトレーニングされたパラゴンモデルに匹敵するパフォーマンスを達成するために構成することができる。
さらに、各モデルには、トレーニング中に露出したデータのサブセットに関する情報のみが含まれており、いくつかの形式のトレーニングデータ保護を可能にしている。
特に、CDMは大規模拡散モデルに対する完全な選択的忘れと連続学習を可能にし、ユーザのアクセス権に基づいてカスタマイズされたモデルを提供する。
実証的には、クラス条件CDM(8-スプリット)の品質(FID)はモノリシックモデルの10%(きめ細かなビジョンデータセットでは)以内であり、(8倍)最大FID増加率1%のモノリシックモデルと比較してより高速に忘れることができる。
テキスト・画像生成に適用すると、CDMはMSCOCOで訓練されたモノリシックモデルよりも14.33%のアライメント(TIFA)を改善する。
CDMはまた、特定のサンプルを生成する際のデータのサブセット(属性)の重要性を判断し、記憶を減らすことができる。
関連論文リスト
- Exploring Federated Deep Learning for Standardising Naming Conventions
in Radiotherapy Data [0.18749305679160366]
放射線治療(RT)データにおける構造容積名の標準化は、データマイニングと分析を可能にするために必要である。
RT患者記録が複数のデータセンターに分散していると考える研究はない。
本稿では,現実の環境をエミュレートして標準化された命名法を提案する。
RTデータをフェデレーション設定で標準化するために,マルチモーダル深層ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-14T07:52:28Z) - The Journey, Not the Destination: How Data Guides Diffusion Models [75.19694584942623]
大規模なデータセットでトレーニングされた拡散モデルは、顕著な品質と多様性のフォトリアリスティックなイメージを合成することができる。
i)拡散モデルの文脈でデータ属性の形式的概念を提供し、(ii)そのような属性を反実的に検証することを可能にする枠組みを提案する。
論文 参考訳(メタデータ) (2023-12-11T08:39:43Z) - On Memorization in Diffusion Models [46.656797890144105]
より小さなデータセットでは記憶の挙動が生じる傾向があることを示す。
我々は、有効モデル記憶(EMM)の観点から、影響因子がこれらの記憶行動に与える影響を定量化する。
本研究は,拡散モデル利用者にとって実用的意義を持ち,深部生成モデルの理論研究の手がかりを提供する。
論文 参考訳(メタデータ) (2023-10-04T09:04:20Z) - Distributional Inclusion Hypothesis and Quantifications: Probing for
Hypernymy in Functional Distributional Semantics [50.363809539842386]
関数分布意味論(FDS)は、真理条件関数による単語の意味をモデル化する。
FDSモデルは分布包含仮説(DIH)に厳格に従う制限されたコーパスのクラスでハイパーネミーを学ぶことを示す。
論文 参考訳(メタデータ) (2023-09-15T11:28:52Z) - Phoenix: A Federated Generative Diffusion Model [6.09170287691728]
大規模な集中型データセットで生成モデルをトレーニングすることで、データのプライバシやセキュリティ、アクセシビリティといった面での課題が発生する可能性がある。
本稿では,フェデレートラーニング(FL)技術を用いて,複数のデータソースにまたがる拡散確率モデル(DDPM)の学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T01:43:09Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Few-Shot Diffusion Models [15.828257653106537]
条件付きDDPMを利用した数ショット生成のためのフレームワークであるFew-Shot Diffusion Models (FSDM)を提案する。
FSDMは、画像パッチ情報を集約することにより、所定のクラスからの小さな画像集合に条件付けされた生成プロセスに適応するように訓練される。
FSDMが数ショット生成を行い、新しいデータセットに転送できることを実証的に示す。
論文 参考訳(メタデータ) (2022-05-30T23:20:33Z) - Ensemble Distillation for Robust Model Fusion in Federated Learning [72.61259487233214]
Federated Learning(FL)は、多くのデバイスが機械学習モデルを協調的にトレーニングする機械学習環境である。
現在のトレーニングスキームのほとんどでは、サーバモデルのパラメータと更新されたパラメータをクライアント側から平均化することで、中央モデルを洗練します。
本研究では,モデル融合のためのアンサンブル蒸留法を提案する。
論文 参考訳(メタデータ) (2020-06-12T14:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。