論文の概要: Enabling PSO-Secure Synthetic Data Sharing Using Diversity-Aware Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.17975v1
- Date: Sun, 22 Jun 2025 10:26:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.68049
- Title: Enabling PSO-Secure Synthetic Data Sharing Using Diversity-Aware Diffusion Models
- Title(参考訳): 多様性を考慮した拡散モデルを用いたPSO-Secure Synthetic Data Sharingの実現
- Authors: Mischa Dombrowski, Bernhard Kainz,
- Abstract要約: 個人データ上で拡散モデルをトレーニングするための一般的なフレームワークを提案する。
これにより、実データモデルの1パーセンテージポイント以内のパフォーマンスを達成する非個人的な合成データセットが生成される。
- 参考スコア(独自算出の注目度): 7.202078342390581
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data has recently reached a level of visual fidelity that makes it nearly indistinguishable from real data, offering great promise for privacy-preserving data sharing in medical imaging. However, fully synthetic datasets still suffer from significant limitations: First and foremost, the legal aspect of sharing synthetic data is often neglected and data regulations, such as the GDPR, are largley ignored. Secondly, synthetic models fall short of matching the performance of real data, even for in-domain downstream applications. Recent methods for image generation have focused on maximising image diversity instead of fidelity solely to improve the mode coverage and therefore the downstream performance of synthetic data. In this work, we shift perspective and highlight how maximizing diversity can also be interpreted as protecting natural persons from being singled out, which leads to predicate singling-out (PSO) secure synthetic datasets. Specifically, we propose a generalisable framework for training diffusion models on personal data which leads to unpersonal synthetic datasets achieving performance within one percentage point of real-data models while significantly outperforming state-of-the-art methods that do not ensure privacy. Our code is available at https://github.com/MischaD/Trichotomy.
- Abstract(参考訳): 合成データは最近、実際のデータとほとんど区別できないようなレベルの視覚的忠実度に達し、医療画像におけるプライバシー保護データ共有を大いに約束している。
第一に、合成データの共有の法的側面はしばしば無視され、GDPRのようなデータ規制は無視される。
第二に、合成モデルは、ドメイン内の下流アプリケーションであっても、実際のデータのパフォーマンスに合わない。
近年の画像生成手法は, モードカバレッジの向上と合成データの下流性能の向上のため, 忠実度ではなく, 画像の多様性の最大化に重点を置いている。
本研究では,多様性の最大化が自然人による選別から保護されていると解釈され,PSO(Singing-out)のセキュアな合成データセットの述語につながることを強調する。
具体的には、個人データ上で拡散モデルをトレーニングするための一般的なフレームワークを提案する。これは、実際のデータモデルの1パーセンテージの範囲内でパフォーマンスを達成し、プライバシを保証しない最先端の手法を著しく上回ります。
私たちのコードはhttps://github.com/MischaD/Trichotomy.comで公開されています。
関連論文リスト
- SMOTE-DP: Improving Privacy-Utility Tradeoff with Synthetic Data [13.699107354397286]
合成データ生成の適切なメカニズムにより、大きなユーティリティ損失を伴わずに、強力なプライバシ保護を実現することができることを示す。
我々は,このSMOTE-DP技術が,堅牢なプライバシ保護を保証するだけでなく,下流学習タスクにおいて有効性を維持する合成データを生成することを理論的および実証的な実証を通じて証明した。
論文 参考訳(メタデータ) (2025-06-02T17:27:10Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - AugGen: Synthetic Augmentation Can Improve Discriminative Models [14.680260279598045]
合成データ生成は、外部データセットや事前訓練されたモデルに代わる有望な代替手段を提供する。
本稿では,自己完結型合成拡張技術であるAugGenを紹介する。
以上の結果から,慎重に統合された合成データは,プライバシー制約を緩和し,顔認識における識別性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2025-03-14T16:10:21Z) - Leveraging Programmatically Generated Synthetic Data for Differentially Private Diffusion Training [4.815212947276105]
プログラムで生成された合成データは、プライバシーの漏洩を避けるために、分類のための差分プライベートトレーニングに使われてきた。
合成データで訓練されたモデルは非現実的なランダムな画像を生成し、生成モデルに合成データを適用するための課題を提起する。
この課題に対処するために、拡散モデルで生成された合成データを活用するDPSynGenを提案する。
論文 参考訳(メタデータ) (2024-12-13T04:22:23Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Boosting Data Analytics With Synthetic Volume Expansion [3.568650932986342]
本稿では,合成データに対する統計的手法の有効性と,合成データのプライバシーリスクについて考察する。
この枠組みにおける重要な発見は、合成データに対する統計的手法の誤差率は、より多くの合成データを追加することで減少するが、最終的には上昇または安定化する可能性があることを明らかにする世代効果である。
論文 参考訳(メタデータ) (2023-10-27T01:57:27Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Differentially Private Diffusion Models Generate Useful Synthetic Images [53.94025967603649]
近年の研究では、いくつかの拡散モデルの出力がトレーニングデータのプライバシを保持していないことが報告されている。
CIFAR-10 と Camelyon17 のSOTA 結果を得た。
以上の結果から,差分プライバシーで微調整された拡散モデルが有用かつ実証可能なプライベートな合成データを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-02-27T15:02:04Z) - Bias Mitigated Learning from Differentially Private Synthetic Data: A
Cautionary Tale [13.881022208028751]
バイアスは、合成データ分布が実データ分布の不整合推定であるため、すべての解析に影響を与える可能性がある。
民営化確率比を用いた複数のバイアス緩和戦略を提案する。
バイアス緩和は、合成データの一般的な応用に、シンプルで効果的なプライバシー準拠の強化をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T19:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。