論文の概要: SMOTE-DP: Improving Privacy-Utility Tradeoff with Synthetic Data
- arxiv url: http://arxiv.org/abs/2506.01907v1
- Date: Mon, 02 Jun 2025 17:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.633585
- Title: SMOTE-DP: Improving Privacy-Utility Tradeoff with Synthetic Data
- Title(参考訳): SMOTE-DP: 合成データによるプライバシとユーティリティのトレードオフの改善
- Authors: Yan Zhou, Bradley Malin, Murat Kantarcioglu,
- Abstract要約: 合成データ生成の適切なメカニズムにより、大きなユーティリティ損失を伴わずに、強力なプライバシ保護を実現することができることを示す。
我々は,このSMOTE-DP技術が,堅牢なプライバシ保護を保証するだけでなく,下流学習タスクにおいて有効性を維持する合成データを生成することを理論的および実証的な実証を通じて証明した。
- 参考スコア(独自算出の注目度): 13.699107354397286
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Privacy-preserving data publication, including synthetic data sharing, often experiences trade-offs between privacy and utility. Synthetic data is generally more effective than data anonymization in balancing this trade-off, however, not without its own challenges. Synthetic data produced by generative models trained on source data may inadvertently reveal information about outliers. Techniques specifically designed for preserving privacy, such as introducing noise to satisfy differential privacy, often incur unpredictable and significant losses in utility. In this work we show that, with the right mechanism of synthetic data generation, we can achieve strong privacy protection without significant utility loss. Synthetic data generators producing contracting data patterns, such as Synthetic Minority Over-sampling Technique (SMOTE), can enhance a differentially private data generator, leveraging the strengths of both. We prove in theory and through empirical demonstration that this SMOTE-DP technique can produce synthetic data that not only ensures robust privacy protection but maintains utility in downstream learning tasks.
- Abstract(参考訳): 合成データ共有を含むプライバシを保存するデータパブリッシングは、プライバシとユーティリティのトレードオフを経験することが多い。
しかし、合成データは、このトレードオフのバランスをとる際に、データ匿名化よりも一般的に効果的である。
ソースデータに基づいてトレーニングされた生成モデルによって生成された合成データは、不注意にも外れ値に関する情報を明らかにする可能性がある。
差分プライバシーを満たすためにノイズを導入するなど、特にプライバシを保存するために設計された技術は、しばしば予測不可能で実用性に重大な損失をもたらす。
本研究では, 合成データ生成の適切なメカニズムにより, 有効性を失うことなく, 強力なプライバシ保護を実現することができることを示す。
SMOTE(Synthetic Minority Over-Sampling Technique)のようなコントラクトデータパターンを生成する合成データジェネレータは、両者の強みを活用して、差分的にプライベートなデータジェネレータを強化することができる。
我々は,このSMOTE-DP技術が,堅牢なプライバシ保護を保証するだけでなく,下流学習タスクにおいて有効性を維持する合成データを生成することを理論的および実証的な実証を通じて証明した。
関連論文リスト
- Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - The Use of Synthetic Data to Train AI Models: Opportunities and Risks
for Sustainable Development [0.6906005491572401]
本稿では,合成データの生成,利用,普及を規定する政策について検討する。
優れた合成データポリシーは、プライバシの懸念とデータの有用性のバランスを取らなければならない。
論文 参考訳(メタデータ) (2023-08-31T23:18:53Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Synthetic Data: Methods, Use Cases, and Risks [11.413309528464632]
研究コミュニティと業界の両方で勢いを増す可能性のある選択肢は、代わりに合成データを共有することだ。
我々は、合成データについて穏やかに紹介し、そのユースケース、未適応のプライバシー問題、そしてその固有の制限を効果的なプライバシー強化技術として論じます。
論文 参考訳(メタデータ) (2023-03-01T16:35:33Z) - Synthetic Text Generation with Differential Privacy: A Simple and
Practical Recipe [32.63295550058343]
テキスト領域におけるシンプルで実用的なレシピは、強力なプライバシー保護を備えた有用な合成テキストを生成するのに有効であることを示す。
提案手法は,非私的テキストと実用性で競合する合成テキストを生成する。
論文 参考訳(メタデータ) (2022-10-25T21:21:17Z) - Synthetic Data -- Anonymisation Groundhog Day [4.694549066382216]
本稿では,合成データ公開におけるプライバシ向上の定量的評価について述べる。
合成データは、推論攻撃を防ぎ、データの有用性を保たないことを示す。
従来の匿名化とは対照的に、合成データ公開のプライバシーとユーティリティのトレードオフは予測が難しい。
論文 参考訳(メタデータ) (2020-11-13T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。