Fugu-MT 論文翻訳(概要): Secure Cross-Silo Synthetic Genomic Data Generation

論文の概要: Secure Cross-Silo Synthetic Genomic Data Generation

arxiv url: http://arxiv.org/abs/2604.27456v1
Date: Thu, 30 Apr 2026 05:52:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-01 16:31:53.943761
Title: Secure Cross-Silo Synthetic Genomic Data Generation
Title（参考訳）: セキュアなクロスサイロ合成ゲノムデータ生成
Authors: Daniil Filienko, Martine De Cock, Sikha Pentyala,
Abstract要約: 合成データ生成は、機密情報を暴露することなく、より広範なデータ共有を可能にする。ある設定では、単一のデータ保持者がそのような生成モデルを訓練するのに十分なデータを持っているかもしれませんが、多くのアプリケーションでは、データが適切なスケールを達成するために複数のサイトで結合されなければなりません。本稿では,複数のデータ保持者が生データを明かさずに合成データ生成装置を共同で訓練する手法を提案する。
参考スコア（独自算出の注目度）: 4.995853115126354
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Access to genomic data is highly regulated due to its sensitive nature. While safeguards are essential, cumbersome data access processes pose a significant barrier to the development of AI methods for genomics. Synthetic data generation can mitigate this tension by enabling broader data sharing without exposing sensitive information. Synthetic genomic data are produced by training generative models on real data and subsequently sampling artificial data that preserves relevant statistics while limiting disclosures about the underlying individuals. In some settings, a single data holder may have sufficient data to train such generative models; however, in many applications data must be combined across multiple sites to achieve adequate scale. This need arises, e.g., in rare disease studies, where individual hospitals typically hold data for only a small number of patients. The solution we present in this paper enables multiple data holders to jointly train a synthetic data generator without revealing their raw data. Our approach combines secure multiparty computation (MPC) to ensure input privacy, so that no party ever discloses its data in unencrypted form, with differential privacy (DP) to provide output privacy by mitigating information leakage from the released synthetic data. We empirically demonstrate the effectiveness of the proposed method by generating high-utility synthetic datasets from multiple real RNA-seq cohorts in federated settings, showing that our approach enables privacy-preserving data synthesis even when data are distributed across institutions.
Abstract（参考訳）: ゲノムデータへのアクセスは、その繊細な性質のために高度に規制されている。セーフガードは不可欠だが、面倒なデータアクセスプロセスは、ゲノム学のためのAIメソッドの開発に重要な障壁となる。合成データ生成は、機密情報を暴露することなく、より広範なデータ共有を可能にすることで、この緊張を軽減することができる。合成ゲノムデータは、実際のデータに基づいて生成モデルを訓練し、続いて関連する統計を保存する人工データをサンプリングし、基礎となる個人に関する開示を制限することによって生成される。ある設定では、単一のデータ保持者がそのような生成モデルを訓練するのに十分なデータを持っているかもしれませんが、多くのアプリケーションでは、データが適切なスケールを達成するために複数のサイトで結合されなければなりません。例えば、まれな疾患の研究では、個々の病院が少数の患者のみのデータを保持する必要がある。本稿では,複数のデータ保持者が生データを明かさずに合成データ生成装置を共同で訓練する手法を提案する。当社のアプローチでは,セキュアなマルチパーティ計算(MPC)と入力プライバシの確保を両立させ,非暗号化形式でデータを公開せず,差分プライバシ(DP)と組み合わせて,リリースした合成データからの情報漏洩を軽減し,出力プライバシを提供する。本研究では,複数の実RNA-seqコホートから高能率な合成データセットをフェデレートした環境下で生成することで,組織間で分散したデータであっても,プライバシ保護データ合成が可能であることを実証的に示す。

論文の概要: Secure Cross-Silo Synthetic Genomic Data Generation

関連論文リスト