論文の概要: DP-SNP-TIHMM: Differentially Private, Time-Inhomogeneous Hidden Markov Models for Synthesizing Genome-Wide Association Datasets
- arxiv url: http://arxiv.org/abs/2510.05777v1
- Date: Tue, 07 Oct 2025 10:47:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.214139
- Title: DP-SNP-TIHMM: Differentially Private, Time-Inhomogeneous Hidden Markov Models for Synthesizing Genome-Wide Association Datasets
- Title(参考訳): DP-SNP-TIHMM:ゲノムワイド関連データセットの合成のための微分プライベート・時間不均一隠れマルコフモデル
- Authors: Shadi Rahimian, Mario Fritz,
- Abstract要約: 単一ヌクレオチド多型(SNP)データセットは遺伝研究の基本であるが、共有されると大きなプライバシーリスクが生じる。
時間不均一な隠れマルコフモデル(TIHMM)から得られたサンプルを用いて合成SNPシーケンスデータセットを生成する革新的なフレームワークを提案する。
トレーニングデータのプライバシを維持するため、トレーニング中に各SNPシーケンスが束縛された影響にのみ寄与することを保証し、強力な差分プライバシー保証を可能にする。
- 参考スコア(独自算出の注目度): 42.84374194761554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single nucleotide polymorphism (SNP) datasets are fundamental to genetic studies but pose significant privacy risks when shared. The correlation of SNPs with each other makes strong adversarial attacks such as masked-value reconstruction, kin, and membership inference attacks possible. Existing privacy-preserving approaches either apply differential privacy to statistical summaries of these datasets or offer complex methods that require post-processing and the usage of a publicly available dataset to suppress or selectively share SNPs. In this study, we introduce an innovative framework for generating synthetic SNP sequence datasets using samples derived from time-inhomogeneous hidden Markov models (TIHMMs). To preserve the privacy of the training data, we ensure that each SNP sequence contributes only a bounded influence during training, enabling strong differential privacy guarantees. Crucially, by operating on full SNP sequences and bounding their gradient contributions, our method directly addresses the privacy risks introduced by their inherent correlations. Through experiments conducted on the real-world 1000 Genomes dataset, we demonstrate the efficacy of our method using privacy budgets of $\varepsilon \in [1, 10]$ at $\delta=10^{-4}$. Notably, by allowing the transition models of the HMM to be dependent on the location in the sequence, we significantly enhance performance, enabling the synthetic datasets to closely replicate the statistical properties of non-private datasets. This framework facilitates the private sharing of genomic data while offering researchers exceptional flexibility and utility.
- Abstract(参考訳): 単一ヌクレオチド多型(SNP)データセットは遺伝研究の基本であるが、共有されると大きなプライバシーリスクが生じる。
SNP同士の相関は、マスク値再構成、親類、メンバーシップ推論攻撃などの強力な敵攻撃を可能にする。
既存のプライバシ保存アプローチは、これらのデータセットの統計的な要約に差分プライバシーを適用するか、あるいは、SNPを抑圧または選択的に共有するために、後処理と公開データセットの使用を必要とする複雑なメソッドを提供する。
本研究では,時間不均一な隠れマルコフモデル(TIHMM)から得られたサンプルを用いて,合成SNPシーケンスデータセットを生成する革新的なフレームワークを提案する。
トレーニングデータのプライバシを維持するため、トレーニング中に各SNPシーケンスが束縛された影響にのみ寄与することを保証し、強力な差分プライバシー保証を可能にする。
重要なことは、完全なSNPシーケンスを運用し、その勾配の寄与を限定することによって、本手法は、それらの固有の相関によって引き起こされるプライバシーリスクに直接対処する。
実世界の1000 Genomesデータセットで実施された実験を通じて、プライバシー予算である$\varepsilon \in [1, 10]$ at $\delta=10^{-4}$を用いて、我々の方法の有効性を実証した。
特に、HMMの遷移モデルをシーケンス内の位置に依存するようにすることで、性能を大幅に向上させ、合成データセットが非プライベートデータセットの統計特性を密に再現できるようにする。
このフレームワークは、研究者が例外的な柔軟性と有用性を提供しながら、ゲノムデータのプライベートな共有を容易にする。
関連論文リスト
- On the MIA Vulnerability Gap Between Private GANs and Diffusion Models [51.53790101362898]
GAN(Generative Adversarial Networks)と拡散モデルが高品質な画像合成のための主要なアプローチとして登場している。
差分自己生成モデルが直面するプライバシーリスクの統一的および実証的分析について述べる。
論文 参考訳(メタデータ) (2025-09-03T14:18:22Z) - Differentially Private Random Feature Model [47.35176457481132]
プライバシを保存するカーネルマシンに対して,差分的にプライベートな特徴モデルを作成する。
本手法は,プライバシを保護し,一般化誤差を導出する。
論文 参考訳(メタデータ) (2024-12-06T05:31:08Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - On the Inherent Privacy Properties of Discrete Denoising Diffusion Models [17.773335593043004]
本稿では、離散拡散モデルに固有のプライバシー保護の先駆的な理論的探索について述べる。
我々のフレームワークは、トレーニングデータセット内の各データポイントの潜在的なプライバシー漏洩を解明する。
当社のバウンダリは、$$$サイズのデータポイントによるトレーニングが、プライバシー漏洩の急増につながっていることも示しています。
論文 参考訳(メタデータ) (2023-10-24T05:07:31Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - PROVGEN: A Privacy-Preserving Approach for Outcome Validation in Genomic Research [2.8443695161923057]
本稿では,ゲノムデータセット共有のためのプライバシ保護手法であるPROVGENを紹介する。
我々のアプローチはゲノムデータをバイナリ空間にエンコードし、2段階のプロセスを適用する。
提案手法は, GWAS結果の誤り検出において, 既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-13T22:20:41Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。