論文の概要: Secure Cross-Silo Synthetic Genomic Data Generation
- arxiv url: http://arxiv.org/abs/2604.27456v1
- Date: Thu, 30 Apr 2026 05:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.943761
- Title: Secure Cross-Silo Synthetic Genomic Data Generation
- Title(参考訳): セキュアなクロスサイロ合成ゲノムデータ生成
- Authors: Daniil Filienko, Martine De Cock, Sikha Pentyala,
- Abstract要約: 合成データ生成は、機密情報を暴露することなく、より広範なデータ共有を可能にする。
ある設定では、単一のデータ保持者がそのような生成モデルを訓練するのに十分なデータを持っているかもしれませんが、多くのアプリケーションでは、データが適切なスケールを達成するために複数のサイトで結合されなければなりません。
本稿では,複数のデータ保持者が生データを明かさずに合成データ生成装置を共同で訓練する手法を提案する。
- 参考スコア(独自算出の注目度): 4.995853115126354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Access to genomic data is highly regulated due to its sensitive nature. While safeguards are essential, cumbersome data access processes pose a significant barrier to the development of AI methods for genomics. Synthetic data generation can mitigate this tension by enabling broader data sharing without exposing sensitive information. Synthetic genomic data are produced by training generative models on real data and subsequently sampling artificial data that preserves relevant statistics while limiting disclosures about the underlying individuals. In some settings, a single data holder may have sufficient data to train such generative models; however, in many applications data must be combined across multiple sites to achieve adequate scale. This need arises, e.g., in rare disease studies, where individual hospitals typically hold data for only a small number of patients. The solution we present in this paper enables multiple data holders to jointly train a synthetic data generator without revealing their raw data. Our approach combines secure multiparty computation (MPC) to ensure input privacy, so that no party ever discloses its data in unencrypted form, with differential privacy (DP) to provide output privacy by mitigating information leakage from the released synthetic data. We empirically demonstrate the effectiveness of the proposed method by generating high-utility synthetic datasets from multiple real RNA-seq cohorts in federated settings, showing that our approach enables privacy-preserving data synthesis even when data are distributed across institutions.
- Abstract(参考訳): ゲノムデータへのアクセスは、その繊細な性質のために高度に規制されている。
セーフガードは不可欠だが、面倒なデータアクセスプロセスは、ゲノム学のためのAIメソッドの開発に重要な障壁となる。
合成データ生成は、機密情報を暴露することなく、より広範なデータ共有を可能にすることで、この緊張を軽減することができる。
合成ゲノムデータは、実際のデータに基づいて生成モデルを訓練し、続いて関連する統計を保存する人工データをサンプリングし、基礎となる個人に関する開示を制限することによって生成される。
ある設定では、単一のデータ保持者がそのような生成モデルを訓練するのに十分なデータを持っているかもしれませんが、多くのアプリケーションでは、データが適切なスケールを達成するために複数のサイトで結合されなければなりません。
例えば、まれな疾患の研究では、個々の病院が少数の患者のみのデータを保持する必要がある。
本稿では,複数のデータ保持者が生データを明かさずに合成データ生成装置を共同で訓練する手法を提案する。
当社のアプローチでは,セキュアなマルチパーティ計算(MPC)と入力プライバシの確保を両立させ,非暗号化形式でデータを公開せず,差分プライバシ(DP)と組み合わせて,リリースした合成データからの情報漏洩を軽減し,出力プライバシを提供する。
本研究では,複数の実RNA-seqコホートから高能率な合成データセットをフェデレートした環境下で生成することで,組織間で分散したデータであっても,プライバシ保護データ合成が可能であることを実証的に示す。
関連論文リスト
- How to DP-fy Your Data: A Practical Guide to Generating Synthetic Data With Differential Privacy [52.00934156883483]
Differential Privacy(DP)は、情報漏洩を推論し、制限するフレームワークである。
Differentially Private Synthetic Dataは、ソースデータの全体的なトレンドを保存する合成データを指す。
論文 参考訳(メタデータ) (2025-12-02T21:14:39Z) - Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference [89.5628648718851]
因果推論は医療介入の開発と評価に不可欠である。
現実の医療データセットは、規制障壁のためアクセスが難しいことが多い。
本稿では,医学における治療効果分析のための新しい合成データ生成法STEAMを提案する。
論文 参考訳(メタデータ) (2025-10-21T16:16:00Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Differentially Private Data Generation with Missing Data [17.705879041365936]
我々は、差分プライバシー(DP)合成データの問題点を、欠落した値で定式化する。
本稿では,合成データの有効性を大幅に向上させる3つの効果的な適応戦略を提案する。
全体として、この研究は、プライベートな合成データ生成アルゴリズムを使用する際の課題と機会をより深く理解することに貢献している。
論文 参考訳(メタデータ) (2023-10-17T19:41:54Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Measuring Utility and Privacy of Synthetic Genomic Data [3.635321290763711]
人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
論文 参考訳(メタデータ) (2021-02-05T17:41:01Z) - Fidelity and Privacy of Synthetic Medical Data [0.0]
医療記録のデジタル化は、新時代のビッグデータから臨床科学へとつながった。
個々のレベルの医療データを共有する必要性は増え続けており、これ以上緊急ではない。
ビッグデータの利用に対する熱意は、患者の自律性とプライバシに対する完全な適切な懸念によって誘惑された。
論文 参考訳(メタデータ) (2021-01-18T23:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。