論文の概要: SNPgen: Phenotype-Supervised Genotype Representation and Synthetic Data Generation via Latent Diffusion
- arxiv url: http://arxiv.org/abs/2603.10873v1
- Date: Wed, 11 Mar 2026 15:23:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.024985
- Title: SNPgen: Phenotype-Supervised Genotype Representation and Synthetic Data Generation via Latent Diffusion
- Title(参考訳): SNPgen: Phenotype-Supervised Genotype Representation and Synthetic Data Generation via Latent Diffusion
- Authors: Andrea Lampis, Michela Carlotta Massi, Nicola Pirastu, Francesca Ieva, Matteo Matteucci, Emanuele Di Angelantonio,
- Abstract要約: SNPgenは、表現型制御された合成遺伝子型を生成するための条件付き潜伏拡散フレームワークである。
英国バイオバンクの個人を4つの複雑な疾患に分けて評価した。
- 参考スコア(独自算出の注目度): 6.660968772645983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Polygenic risk scores and other genomic analyses require large individual-level genotype datasets, yet strict data access restrictions impede sharing. Synthetic genotype generation offers a privacy-preserving alternative, but most existing methods operate unconditionally, producing samples without phenotype alignment, or rely on unsupervised compression, creating a gap between statistical fidelity and downstream task utility. We present SNPgen, a two-stage conditional latent diffusion framework for generating phenotype-supervised synthetic genotypes. SNPgen combines GWAS-guided variant selection (1,024-2,048 trait-associated SNPs) with a variational autoencoder for genotype compression and a latent diffusion model conditioned on binary disease labels via classifier-free guidance. Evaluated on 458,724 UK Biobank individuals across four complex diseases (coronary artery disease, breast cancer, type 1 and type 2 diabetes), models trained on synthetic data matched real-data predictive performance in a train-on-synthetic, test-on-real protocol, approaching genome-wide PRS methods that use $2$-$6\times$ more variants. Privacy analysis confirmed zero identical matches, near-random membership inference (AUC $\approx 0.50$), preserved linkage disequilibrium structure, and high allele frequency correlation ($r \geq 0.95$) with source data. A controlled simulation with known causal effects verified faithful recovery of the imposed genetic association structure.
- Abstract(参考訳): ポリジェニックリスクスコアやその他のゲノム解析は、大きな個別レベルのジェノタイプデータセットを必要とするが、厳格なデータアクセス制限は共有を妨げる。
合成ジェノタイプ生成は、プライバシを保存する代替手段を提供するが、既存のほとんどのメソッドは無条件で動作し、表現型アライメントのないサンプルを生成したり、教師なし圧縮に依存し、統計的忠実度と下流タスクユーティリティのギャップを生じさせる。
表現型制御された合成遺伝子型を生成するための2段階の条件付き潜伏拡散フレームワークであるSNPgenについて述べる。
SNPgenはGWAS誘導型変種選択(1,024-2,048の形質関連SNP)と、遺伝子型圧縮のための変分オートエンコーダと、分類子フリーガイダンスを介してバイナリ病ラベルに条件付き潜時拡散モデルを組み合わせる。
4つの複雑な疾患(冠動脈疾患、乳がん、タイプ1、タイプ2糖尿病)にまたがる458,724人の英国バイオバンクの個人を評価。
プライバシー分析の結果、ゼロ一致、ほぼランダムなメンバーシップ推論(AUC $\approx 0.50$)、保存されたリンク不均衡構造、およびソースデータとの高いアレル周波数相関(r \geq 0.95$)が確認された。
既知の因果効果による制御されたシミュレーションは、強制された遺伝子関連構造の忠実な回復を証明した。
関連論文リスト
- GenAR: Next-Scale Autoregressive Generation for Spatial Gene Expression Prediction [15.143858141542532]
GenARは、粗いものから細かいものまで予測を洗練するマルチスケールの自動回帰フレームワークである。
我々は、粗い予測から細かい予測を洗練するマルチスケール自動回帰フレームワークGenARを紹介する。
GenARは、最先端のパフォーマンスを原則として達成し、精密医療とコスト効率のよい分子プロファイリングに潜在的に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2025-10-05T18:28:21Z) - Deep Generative Models for Discrete Genotype Simulation [2.1880699665839396]
本研究では,非条件と表現型条件の両方でジェノタイプデータを生成することを検討する。
可変オートエンコーダ(VAE)、拡散モデル、GAN(Generative Adversarial Networks)などの一般的な生成モデルを開発し評価した。
以上の結果から,これらのモデルが遺伝的パターンを効果的に捉え,遺伝子型・フェノタイプ関連を保存できることが示唆された。
論文 参考訳(メタデータ) (2025-08-11T11:56:03Z) - Unlasting: Unpaired Single-Cell Multi-Perturbation Estimation by Dual Conditional Diffusion Implicit Bridges [68.98973318553983]
本稿では,Dual Diffusion Implicit Bridges (DDIB) に基づくフレームワークを提案する。
我々は、生物学的に意味のある方法で摂動シグナルを伝達するために遺伝子制御ネットワーク(GRN)情報を統合する。
また、サイレント遺伝子を予測し、生成したプロファイルの品質を向上させるためのマスキング機構も組み込んだ。
論文 参考訳(メタデータ) (2025-06-26T09:05:38Z) - G2PDiffusion: Cross-Species Genotype-to-Phenotype Prediction via Evolutionary Diffusion [108.94237816552024]
本稿では,DNAから形態像を生成する最初の遺伝子型対フェノタイプ拡散モデル(G2PDiffusion)を提案する。
本モデルは,1)保存および共進化パターンを識別するMSA検索エンジン,2)複雑なジェノタイプ-環境相互作用を効果的にモデル化する環境対応MSA条件エンコーダ,3)遺伝子型-フェノタイプ整合性を改善する適応型表現的アライメントモジュールを含む。
論文 参考訳(メタデータ) (2025-02-07T06:16:31Z) - CSGDN: Contrastive Signed Graph Diffusion Network for Predicting Crop Gene-phenotype Associations [6.5678927417916455]
我々は、より少ないトレーニングサンプルでロバストなノード表現を学習し、より高いリンク予測精度を実現するために、コントラスト符号付きグラフ拡散ネットワーク(CSGDN)を提案する。
Gossypium hirsutum, Brassica napus, Triticum turgidumの3つの作物データセット上でCSGDNの有効性を検証する実験を行った。
論文 参考訳(メタデータ) (2024-10-10T01:01:10Z) - Fast and Functional Structured Data Generators Rooted in Out-of-Equilibrium Physics [44.97217246897902]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - rfPhen2Gen: A machine learning based association study of brain imaging
phenotypes to genotypes [71.1144397510333]
56個の脳画像QTを用いてSNPを予測する機械学習モデルを学習した。
アルツハイマー病(AD)リスク遺伝子APOEのSNPは、ラスソとランダムな森林に対して最低のRMSEを有していた。
ランダム・フォレストは、線形モデルによって優先順位付けされなかったが、脳関連疾患と関連があることが知られている追加のSNPを特定した。
論文 参考訳(メタデータ) (2022-03-31T20:15:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。