論文の概要: Decentralised, Scalable and Privacy-Preserving Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2310.20062v1
- Date: Mon, 30 Oct 2023 22:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 17:10:24.648616
- Title: Decentralised, Scalable and Privacy-Preserving Synthetic Data Generation
- Title(参考訳): 分散・スケーラブル・プライバシ保護型合成データ生成
- Authors: Vishal Ramesh, Rui Zhao, Naman Goel
- Abstract要約: 我々は、リアルデータのコントリビュータが、微分プライベートな合成データ生成に自律的に参加できる新しいシステムを構築します。
私たちのソリューションは、Solid(Social Linked Data)、MPC(Secure Multi-Party Computation)、Trusted Execution Environments(TEEs)という3つのビルディングブロックに基づいています。
これらの3つの技術が、責任と信頼性のある合成データ生成における様々な課題に効果的に対処できることを示します。
- 参考スコア(独自算出の注目度): 8.982917734231165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data is emerging as a promising way to harness the value of data,
while reducing privacy risks. The potential of synthetic data is not limited to
privacy-friendly data release, but also includes complementing real data in
use-cases such as training machine learning algorithms that are more fair and
robust to distribution shifts etc. There is a lot of interest in algorithmic
advances in synthetic data generation for providing better privacy and
statistical guarantees and for its better utilisation in machine learning
pipelines. However, for responsible and trustworthy synthetic data generation,
it is not sufficient to focus only on these algorithmic aspects and instead, a
holistic view of the synthetic data generation pipeline must be considered. We
build a novel system that allows the contributors of real data to autonomously
participate in differentially private synthetic data generation without relying
on a trusted centre. Our modular, general and scalable solution is based on
three building blocks namely: Solid (Social Linked Data), MPC (Secure
Multi-Party Computation) and Trusted Execution Environments (TEEs). Solid is a
specification that lets people store their data securely in decentralised data
stores called Pods and control access to their data. MPC refers to the set of
cryptographic methods for different parties to jointly compute a function over
their inputs while keeping those inputs private. TEEs such as Intel SGX rely on
hardware based features for confidentiality and integrity of code and data. We
show how these three technologies can be effectively used to address various
challenges in responsible and trustworthy synthetic data generation by
ensuring: 1) contributor autonomy, 2) decentralisation, 3) privacy and 4)
scalability. We support our claims with rigorous empirical results on simulated
and real datasets and different synthetic data generation algorithms.
- Abstract(参考訳): 合成データは、プライバシーリスクを低減しつつ、データの価値を活用するための有望な方法として浮上している。
合成データのポテンシャルは、プライバシフレンドリなデータリリースに限らず、分散シフトに対してより公正で堅牢な機械学習アルゴリズムをトレーニングするなど、ユースケースにおける実際のデータの補完も含んでいる。
プライバシと統計保証の改善と機械学習パイプラインの利用向上のために、合成データ生成のアルゴリズム的な進歩に多くの関心が寄せられている。
しかし、責任があり信頼性の高い合成データ生成では、これらのアルゴリズム的な側面にのみ焦点をあてるだけでは十分ではなく、合成データ生成パイプラインの全体像を考える必要がある。
我々は,信頼されたセンタに頼らずに,実データのコントリビュータが自発的にプライベートな合成データ生成に参加することを可能にする,新しいシステムを構築する。
私たちのモジュラーで汎用的でスケーラブルなソリューションは、Solid(Social Linked Data)、MPC(Secure Multi-Party Computation)、Trusted Execution Environments(TEEs)という3つのビルディングブロックに基づいています。
Solidは、Podと呼ばれる分散データストアにデータを安全に保存し、データへのアクセスを制御するための仕様だ。
MPC(英: MPC)とは、入力を秘密にしながら入力上の関数を共同で計算する暗号化手法である。
Intel SGXのようなTEEは、コードとデータの機密性と整合性のためにハードウェアベースの機能に依存している。
これらの3つの技術が、責任と信頼できる合成データ生成における様々な課題に、いかに効果的に対処できるかを示す。
1)コントリビュータの自主性
2)分散化
3)プライバシーとプライバシー
4) スケーラビリティ。
我々は,シミュレーションおよび実データ集合と異なる合成データ生成アルゴリズムについて,厳密な実験結果を用いてクレームを支持する。
関連論文リスト
- Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Scaling While Privacy Preserving: A Comprehensive Synthetic Tabular Data
Generation and Evaluation in Learning Analytics [0.412484724941528]
プライバシーは学習分析(LA)の進歩に大きな障害となり、匿名化の不十分さやデータ誤用といった課題を提示している。
合成データは潜在的な対策として現れ、堅牢なプライバシー保護を提供する。
LAの合成データに関する以前の研究では、プライバシーとデータユーティリティの微妙なバランスを評価するのに不可欠な、徹底的な評価が欠如していた。
論文 参考訳(メタデータ) (2024-01-12T20:27:55Z) - Federated Learning Empowered by Generative Content [55.576885852501775]
フェデレートラーニング(FL)は、プライバシ保護方法でモデルのトレーニングに分散プライベートデータを活用可能にする。
本稿では,FedGCと呼ばれる新しいFLフレームワークを提案する。
我々は、さまざまなベースライン、データセット、シナリオ、モダリティをカバーする、FedGCに関する体系的な実証的研究を行う。
論文 参考訳(メタデータ) (2023-12-10T07:38:56Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Libertas: Privacy-Preserving Computation for Decentralised Personal Data Stores [19.54818218429241]
セキュアなマルチパーティ計算をSolidと統合するためのモジュール設計を提案する。
私たちのアーキテクチャであるLibertasでは、基盤となるSolidの設計にプロトコルレベルの変更は必要ありません。
既存の差分プライバシー技術と組み合わせて、出力プライバシーを確保する方法を示す。
論文 参考訳(メタデータ) (2023-09-28T12:07:40Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Differentially Private Algorithms for Synthetic Power System Datasets [0.0]
電力システムの研究は、現実世界のネットワークデータセットの可用性に依存している。
データ所有者は、セキュリティとプライバシーのリスクのためにデータを共有することをためらっている。
我々は、最適化と機械学習データセットの合成生成のためのプライバシー保護アルゴリズムを開発する。
論文 参考訳(メタデータ) (2023-03-20T13:38:58Z) - Secure Multiparty Computation for Synthetic Data Generation from
Distributed Data [7.370727048591523]
関連データへのアクセスに関する法的および倫理的な制限は、健康、金融、教育といった重要な領域におけるデータ科学の研究を阻害する。
既存のアプローチでは、データ保持者は信頼されたキュレーターに生データを供給し、それを合成データ生成の燃料として利用する。
本稿では,データ保持者が暗号化されたデータのみを差分プライベートな合成データ生成のために共有する,最初のソリューションを提案する。
論文 参考訳(メタデータ) (2022-10-13T20:09:17Z) - Enabling Synthetic Data adoption in regulated domains [1.9512796489908306]
Model-CentricからData-Centricへの転換は、アルゴリズムよりもデータとその品質に重点を置いている。
特に、高度に規制されたシナリオにおける情報のセンシティブな性質を考慮する必要がある。
このようなコンウンドラムをバイパスする巧妙な方法は、生成プロセスから得られたデータであるSynthetic Dataに依存し、実際のデータプロパティを学習する。
論文 参考訳(メタデータ) (2022-04-13T10:53:54Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。