論文の概要: Secure Multiparty Computation for Synthetic Data Generation from
Distributed Data
- arxiv url: http://arxiv.org/abs/2210.07332v1
- Date: Thu, 13 Oct 2022 20:09:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 18:05:12.427461
- Title: Secure Multiparty Computation for Synthetic Data Generation from
Distributed Data
- Title(参考訳): 分散データから合成データを生成するためのセキュアなマルチパーティ計算
- Authors: Mayana Pereira, Sikha Pentyala, Anderson Nascimento, Rafael T. de
Sousa Jr., Martine De Cock
- Abstract要約: 関連データへのアクセスに関する法的および倫理的な制限は、健康、金融、教育といった重要な領域におけるデータ科学の研究を阻害する。
既存のアプローチでは、データ保持者は信頼されたキュレーターに生データを供給し、それを合成データ生成の燃料として利用する。
本稿では,データ保持者が暗号化されたデータのみを差分プライベートな合成データ生成のために共有する,最初のソリューションを提案する。
- 参考スコア(独自算出の注目度): 7.370727048591523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Legal and ethical restrictions on accessing relevant data inhibit data
science research in critical domains such as health, finance, and education.
Synthetic data generation algorithms with privacy guarantees are emerging as a
paradigm to break this data logjam. Existing approaches, however, assume that
the data holders supply their raw data to a trusted curator, who uses it as
fuel for synthetic data generation. This severely limits the applicability, as
much of the valuable data in the world is locked up in silos, controlled by
entities who cannot show their data to each other or a central aggregator
without raising privacy concerns.
To overcome this roadblock, we propose the first solution in which data
holders only share encrypted data for differentially private synthetic data
generation. Data holders send shares to servers who perform Secure Multiparty
Computation (MPC) computations while the original data stays encrypted.
We instantiate this idea in an MPC protocol for the Multiplicative Weights
with Exponential Mechanism (MWEM) algorithm to generate synthetic data based on
real data originating from many data holders without reliance on a single point
of failure.
- Abstract(参考訳): 関連データへのアクセスに関する法的および倫理的な制限は、健康、金融、教育といった重要な領域におけるデータ科学の研究を妨げる。
プライバシ保証を備えた合成データ生成アルゴリズムが,このデータロジャムを破るパラダイムとして登場している。
しかし、既存のアプローチでは、データ保持者は生データを信頼できるキュレーターに供給し、それを合成データ生成の燃料として利用する。
これにより、世界中の貴重なデータがサイロに閉じ込められ、プライバシーを心配することなく、互いにデータを表示できないエンティティや中央アグリゲータによって制御されるため、適用性が著しく制限される。
この障害を克服するために,データ保持者が暗号化されたデータを差分プライベートな合成データ生成のためにのみ共有する,最初のソリューションを提案する。
データ保持者は、元のデータが暗号化されている間、セキュアマルチパーティ計算(MPC)計算を実行するサーバに共有を送信する。
このアイデアをMWEM(Multilicative Weights with Exponential Mechanism)アルゴリズムのためのMPCプロトコルでインスタンス化し、単一障害点に依存することなく、多くのデータ保持者から得られた実データに基づいて合成データを生成する。
関連論文リスト
- Adversarial Machine Learning-Enabled Anonymization of OpenWiFi Data [9.492736565723892]
匿名化によるデータのプライバシと保護は、他のデータの使用が期待される前にネットワークオペレータやデータ所有者にとって重要な問題である。
オープンWiFiネットワークは、データ所有者が持つ知識に関係なく、トラフィックへのアクセスや知識を得ようとする敵に対して脆弱である。
CTGANは合成データを生成する。これは実際のデータとして偽装するが、実際のデータの隠れた急性情報を促進する。
論文 参考訳(メタデータ) (2024-01-03T04:59:03Z) - Decentralised, Scalable and Privacy-Preserving Synthetic Data Generation [8.982917734231165]
我々は、リアルデータのコントリビュータが、微分プライベートな合成データ生成に自律的に参加できる新しいシステムを構築します。
私たちのソリューションは、Solid(Social Linked Data)、MPC(Secure Multi-Party Computation)、Trusted Execution Environments(TEEs)という3つのビルディングブロックに基づいています。
これらの3つの技術が、責任と信頼性のある合成データ生成における様々な課題に効果的に対処できることを示します。
論文 参考訳(メタデータ) (2023-10-30T22:27:32Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Auditing and Generating Synthetic Data with Controllable Trust
Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Differentially Private Algorithms for Synthetic Power System Datasets [0.0]
電力システムの研究は、現実世界のネットワークデータセットの可用性に依存している。
データ所有者は、セキュリティとプライバシーのリスクのためにデータを共有することをためらっている。
我々は、最適化と機械学習データセットの合成生成のためのプライバシー保護アルゴリズムを開発する。
論文 参考訳(メタデータ) (2023-03-20T13:38:58Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - PreFair: Privately Generating Justifiably Fair Synthetic Data [17.037575948075215]
PreFairは、差分プライバシー(DP)公正な合成データ生成を可能にするシステムである。
我々は、合成データ生成シナリオに適合する正当性の概念に適応する。
論文 参考訳(メタデータ) (2022-12-20T15:01:54Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Fidelity and Privacy of Synthetic Medical Data [0.0]
医療記録のデジタル化は、新時代のビッグデータから臨床科学へとつながった。
個々のレベルの医療データを共有する必要性は増え続けており、これ以上緊急ではない。
ビッグデータの利用に対する熱意は、患者の自律性とプライバシに対する完全な適切な懸念によって誘惑された。
論文 参考訳(メタデータ) (2021-01-18T23:01:27Z) - XOR Mixup: Privacy-Preserving Data Augmentation for One-Shot Federated
Learning [49.130350799077114]
我々は、XorMixupという、プライバシー保護のためのXORベースのミックスアップデータ拡張技術を開発した。
中心となる考え方は、各デバイスのデータサンプルのみを使用してデコードされた、他のデバイスのエンコードされたデータサンプルを収集することである。
XorMixFLは、非IID MNISTデータセットの下で、Vanilla FLよりも最大17.6%高い精度を達成する。
論文 参考訳(メタデータ) (2020-06-09T09:43:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。