論文の概要: Secure Multiparty Computation for Synthetic Data Generation from
Distributed Data
- arxiv url: http://arxiv.org/abs/2210.07332v1
- Date: Thu, 13 Oct 2022 20:09:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 18:05:12.427461
- Title: Secure Multiparty Computation for Synthetic Data Generation from
Distributed Data
- Title(参考訳): 分散データから合成データを生成するためのセキュアなマルチパーティ計算
- Authors: Mayana Pereira, Sikha Pentyala, Anderson Nascimento, Rafael T. de
Sousa Jr., Martine De Cock
- Abstract要約: 関連データへのアクセスに関する法的および倫理的な制限は、健康、金融、教育といった重要な領域におけるデータ科学の研究を阻害する。
既存のアプローチでは、データ保持者は信頼されたキュレーターに生データを供給し、それを合成データ生成の燃料として利用する。
本稿では,データ保持者が暗号化されたデータのみを差分プライベートな合成データ生成のために共有する,最初のソリューションを提案する。
- 参考スコア(独自算出の注目度): 7.370727048591523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Legal and ethical restrictions on accessing relevant data inhibit data
science research in critical domains such as health, finance, and education.
Synthetic data generation algorithms with privacy guarantees are emerging as a
paradigm to break this data logjam. Existing approaches, however, assume that
the data holders supply their raw data to a trusted curator, who uses it as
fuel for synthetic data generation. This severely limits the applicability, as
much of the valuable data in the world is locked up in silos, controlled by
entities who cannot show their data to each other or a central aggregator
without raising privacy concerns.
To overcome this roadblock, we propose the first solution in which data
holders only share encrypted data for differentially private synthetic data
generation. Data holders send shares to servers who perform Secure Multiparty
Computation (MPC) computations while the original data stays encrypted.
We instantiate this idea in an MPC protocol for the Multiplicative Weights
with Exponential Mechanism (MWEM) algorithm to generate synthetic data based on
real data originating from many data holders without reliance on a single point
of failure.
- Abstract(参考訳): 関連データへのアクセスに関する法的および倫理的な制限は、健康、金融、教育といった重要な領域におけるデータ科学の研究を妨げる。
プライバシ保証を備えた合成データ生成アルゴリズムが,このデータロジャムを破るパラダイムとして登場している。
しかし、既存のアプローチでは、データ保持者は生データを信頼できるキュレーターに供給し、それを合成データ生成の燃料として利用する。
これにより、世界中の貴重なデータがサイロに閉じ込められ、プライバシーを心配することなく、互いにデータを表示できないエンティティや中央アグリゲータによって制御されるため、適用性が著しく制限される。
この障害を克服するために,データ保持者が暗号化されたデータを差分プライベートな合成データ生成のためにのみ共有する,最初のソリューションを提案する。
データ保持者は、元のデータが暗号化されている間、セキュアマルチパーティ計算(MPC)計算を実行するサーバに共有を送信する。
このアイデアをMWEM(Multilicative Weights with Exponential Mechanism)アルゴリズムのためのMPCプロトコルでインスタンス化し、単一障害点に依存することなく、多くのデータ保持者から得られた実データに基づいて合成データを生成する。
関連論文リスト
- Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - CaPS: Collaborative and Private Synthetic Data Generation from Distributed Sources [5.898893619901382]
分散データホルダから合成データの協調的かつプライベートな生成のためのフレームワークを提案する。
我々は信頼されたアグリゲータをセキュアなマルチパーティ計算プロトコルに置き換え、差分プライバシー(DP)を介してプライバシを出力する。
MWEM+PGMおよびAIMの最先端選択測度生成アルゴリズムに対するアプローチの適用性とスケーラビリティを実証する。
論文 参考訳(メタデータ) (2024-02-13T17:26:32Z) - Decentralised, Scalable and Privacy-Preserving Synthetic Data Generation [8.982917734231165]
我々は、リアルデータのコントリビュータが、微分プライベートな合成データ生成に自律的に参加できる新しいシステムを構築します。
私たちのソリューションは、Solid(Social Linked Data)、MPC(Secure Multi-Party Computation)、Trusted Execution Environments(TEEs)という3つのビルディングブロックに基づいています。
これらの3つの技術が、責任と信頼性のある合成データ生成における様々な課題に効果的に対処できることを示します。
論文 参考訳(メタデータ) (2023-10-30T22:27:32Z) - Differentially Private Data Generation with Missing Data [25.242190235853595]
我々は、差分プライバシー(DP)合成データの問題点を、欠落した値で定式化する。
本稿では,合成データの有効性を大幅に向上させる3つの効果的な適応戦略を提案する。
全体として、この研究は、プライベートな合成データ生成アルゴリズムを使用する際の課題と機会をより深く理解することに貢献している。
論文 参考訳(メタデータ) (2023-10-17T19:41:54Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - PreFair: Privately Generating Justifiably Fair Synthetic Data [17.037575948075215]
PreFairは、差分プライバシー(DP)公正な合成データ生成を可能にするシステムである。
我々は、合成データ生成シナリオに適合する正当性の概念に適応する。
論文 参考訳(メタデータ) (2022-12-20T15:01:54Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Fidelity and Privacy of Synthetic Medical Data [0.0]
医療記録のデジタル化は、新時代のビッグデータから臨床科学へとつながった。
個々のレベルの医療データを共有する必要性は増え続けており、これ以上緊急ではない。
ビッグデータの利用に対する熱意は、患者の自律性とプライバシに対する完全な適切な懸念によって誘惑された。
論文 参考訳(メタデータ) (2021-01-18T23:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。