論文の概要: RAPID: Retrieval Augmented Training of Differentially Private Diffusion Models
- arxiv url: http://arxiv.org/abs/2502.12794v1
- Date: Tue, 18 Feb 2025 11:56:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:57.098014
- Title: RAPID: Retrieval Augmented Training of Differentially Private Diffusion Models
- Title(参考訳): RAPID:個人差分拡散モデルの検索訓練
- Authors: Tanqiu Jiang, Changjiang Li, Fenglong Ma, Ting Wang,
- Abstract要約: RAPID: Retrieval Augmented PrIvate Diffusion modelを提案する。
DPDMトレーニングに検索拡張生成を統合する新しいアプローチである。
これは、生成的品質、メモリフットプリント、推論コストにおいて、最先端のアプローチよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 26.66607257183987
- License:
- Abstract: Differentially private diffusion models (DPDMs) harness the remarkable generative capabilities of diffusion models while enforcing differential privacy (DP) for sensitive data. However, existing DPDM training approaches often suffer from significant utility loss, large memory footprint, and expensive inference cost, impeding their practical uses. To overcome such limitations, we present RAPID: Retrieval Augmented PrIvate Diffusion model, a novel approach that integrates retrieval augmented generation (RAG) into DPDM training. Specifically, RAPID leverages available public data to build a knowledge base of sample trajectories; when training the diffusion model on private data, RAPID computes the early sampling steps as queries, retrieves similar trajectories from the knowledge base as surrogates, and focuses on training the later sampling steps in a differentially private manner. Extensive evaluation using benchmark datasets and models demonstrates that, with the same privacy guarantee, RAPID significantly outperforms state-of-the-art approaches by large margins in generative quality, memory footprint, and inference cost, suggesting that retrieval-augmented DP training represents a promising direction for developing future privacy-preserving generative models. The code is available at: https://github.com/TanqiuJiang/RAPID
- Abstract(参考訳): 差分的プライベート拡散モデル(DPDM)は、機密データに対して差分プライバシー(DP)を強制しながら拡散モデルの顕著な生成能力を利用する。
しかし、既存のDPDMトレーニングアプローチは、しばしば大きなユーティリティ損失、大きなメモリフットプリント、高価な推論コストに悩まされ、実用的利用を妨げている。
このような制限を克服するために、RAPID: Retrieval Augmented PrIvate Diffusion Modelは、検索強化生成(RAG)をDPDMトレーニングに統合する新しいアプローチである。
具体的には、利用可能な公開データを活用してサンプル軌跡の知識ベースを構築する。プライベートデータ上で拡散モデルをトレーニングする場合、RAPIDは早期サンプリングステップをクエリとして計算し、知識ベースから類似の軌跡をサロゲートとして検索し、後のサンプリングステップを差分的にプライベートにトレーニングする。
ベンチマークデータセットとモデルを用いた広範囲な評価により、RAPIDは、プライバシ保証と同じで、生成品質、メモリフットプリント、推論コストの大きなマージンによる最先端アプローチを著しく上回り、検索強化DPトレーニングが将来のプライバシ保護生成モデルを開発する上で有望な方向であることを示唆している。
コードは、https://github.com/TanqiuJiang/RAPIDで入手できる。
関連論文リスト
- Pruning then Reweighting: Towards Data-Efficient Training of Diffusion Models [33.09663675904689]
データセットプルーニングの観点から,効率的な拡散訓練について検討する。
GAN(Generative Adversarial Network)のような生成モデルに対するデータ効率トレーニングの原則に着想を得て、まず、GANで使用されるデータ選択スキームをDMトレーニングに拡張する。
生成性能をさらに向上するため,クラスワイド・リウェイト方式を採用する。
論文 参考訳(メタデータ) (2024-09-27T20:21:19Z) - Rethinking Improved Privacy-Utility Trade-off with Pre-existing Knowledge for DP Training [31.559864332056648]
異種雑音(DP-Hero)を有する一般微分プライバシーフレームワークを提案する。
DP-Hero上では、勾配更新に注入されたノイズが不均一であり、予め確立されたモデルパラメータによって誘導されるDP-SGDの異種バージョンをインスタンス化する。
提案するDP-Heroの有効性を検証・説明するための総合的な実験を行い,最新技術と比較するとトレーニング精度が向上した。
論文 参考訳(メタデータ) (2024-09-05T08:40:54Z) - Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - Differentially Private Fine-Tuning of Diffusion Models [22.454127503937883]
微分プライバシーと拡散モデル(DM)の統合は、有望だが挑戦的なフロンティアを示している。
この分野での最近の進歩は、公開データによる事前学習によって高品質な合成データを生成する可能性を強調している。
本稿では,プライバシとユーティリティのトレードオフを高めるために,トレーニング可能なパラメータの数を最小限に抑える,プライベート拡散モデルに最適化された戦略を提案する。
論文 参考訳(メタデータ) (2024-06-03T14:18:04Z) - Pre-training Differentially Private Models with Limited Public Data [54.943023722114134]
ディファレンシャルプライバシ(DP)は、モデルに提供されるセキュリティの度合いを測定するための重要な手法である。
DPはまだ、最初の事前訓練段階で使用されるデータのかなりの部分を保護することができない。
公共データの10%しか利用しない新しいDP継続事前学習戦略を開発した。
ImageNet-21kのDP精度は41.5%、非DP精度は55.7%、下流タスクのPlaces365とiNaturalist-2021では60.0%である。
論文 参考訳(メタデータ) (2024-02-28T23:26:27Z) - LLM-based Privacy Data Augmentation Guided by Knowledge Distillation
with a Distribution Tutor for Medical Text Classification [67.92145284679623]
ノイズの多いプライベートディストリビューションをモデル化し,プライバシコストの低いサンプル生成を制御するDPベースのチュータを提案する。
理論的には、モデルのプライバシ保護を分析し、モデルを実証的に検証する。
論文 参考訳(メタデータ) (2024-02-26T11:52:55Z) - Arbitrary Decisions are a Hidden Cost of Differentially Private Training [7.560688419767116]
機械学習で使用されるメカニズムは、しばしばモデルトレーニング中に差分プライバシー(DP)を保証することを目的としている。
モデルパラメータをプライバシに敏感なデータに適合させる際にランダム化を利用する。
与えられた入力の例として、等プライベートなモデルによって予測される出力は、トレーニングで使用されるランダム性に依存する。
論文 参考訳(メタデータ) (2023-02-28T12:13:43Z) - Differentially Private Diffusion Models [46.46256537222917]
我々は近年の拡散モデル(DM)の成功の上に構築され、微分プライベート拡散モデル(DPDM)を導入している。
DMのトレーニングに適したDP-SGDの強力な修正であるノイズ多重性を提案する。
我々は,新しいDPDMを画像生成ベンチマークで検証し,すべての実験で最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-18T15:20:47Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - Don't Generate Me: Training Differentially Private Generative Models
with Sinkhorn Divergence [73.14373832423156]
そこで我々はDP-Sinkhornを提案する。DP-Sinkhornは個人データからデータ分布を差分プライバシで学習するための新しいトランスポートベース生成手法である。
差分的にプライベートな生成モデルを訓練するための既存のアプローチとは異なり、我々は敵の目的に頼らない。
論文 参考訳(メタデータ) (2021-11-01T18:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。