論文の概要: Multi-megabase scale genome interpretation with genetic language models
- arxiv url: http://arxiv.org/abs/2501.07737v1
- Date: Mon, 13 Jan 2025 23:00:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:28:20.354497
- Title: Multi-megabase scale genome interpretation with genetic language models
- Title(参考訳): 遺伝的言語モデルを用いたマルチメガベーススケールゲノム解析
- Authors: Frederik Träuble, Lachlan Stuart, Andreas Georgiou, Pascal Notin, Arash Mehrjou, Ron Schwessinger, Mathieu Chevalley, Kim Branson, Bernhard Schölkopf, Cornelia van Duijn, Debora Marks, Patrick Schwab,
- Abstract要約: フェンフォーマー(英: Phenformer)は、機械的仮説を生成するために学習する多スケールの遺伝的言語モデルである。
我々は,150万以上の個体から得られた全ゲノムシークエンシングデータを用いて,Phenformerが既存の方法よりも優れた機械的仮説を生成することを示す。
- 参考スコア(独自算出の注目度): 45.97370115519009
- License:
- Abstract: Understanding how molecular changes caused by genetic variation drive disease risk is crucial for deciphering disease mechanisms. However, interpreting genome sequences is challenging because of the vast size of the human genome, and because its consequences manifest across a wide range of cells, tissues and scales -- spanning from molecular to whole organism level. Here, we present Phenformer, a multi-scale genetic language model that learns to generate mechanistic hypotheses as to how differences in genome sequence lead to disease-relevant changes in expression across cell types and tissues directly from DNA sequences of up to 88 million base pairs. Using whole genome sequencing data from more than 150 000 individuals, we show that Phenformer generates mechanistic hypotheses about disease-relevant cell and tissue types that match literature better than existing state-of-the-art methods, while using only sequence data. Furthermore, disease risk predictors enriched by Phenformer show improved prediction performance and generalisation to diverse populations. Accurate multi-megabase scale interpretation of whole genomes without additional experimental data enables both a deeper understanding of molecular mechanisms involved in disease and improved disease risk prediction at the level of individuals.
- Abstract(参考訳): 遺伝的変異によって引き起こされる分子的変化が病気のリスクを引き起こすことを理解することは、疾患のメカニズムの解読に不可欠である。
しかし、ゲノム配列の解釈はヒトゲノムの巨大さや、その影響は細胞、組織、スケールなど、分子レベルから生物レベルまで多岐にわたるため、困難である。
ここでは、ゲノム配列の違いが、最大8800万塩基対のDNA配列から直接、細胞型や組織間での表現の病原的変化をいかに引き起こすかについて、機械論的仮説を生成するために学習する、多スケールの遺伝的言語モデルであるPhenformerを紹介する。
15万以上の個体から得られた全ゲノムシークエンシングデータを用いて、Phenformerは、既存の最先端手法よりも文献に適合する疾患関連細胞や組織の種類に関する機械的仮説を、シーケンスデータのみを用いて生成することを示した。
さらに,Phenformerに富んだ疾病リスク予測器では,予測性能の向上と多様な集団への一般化が見られた。
追加の実験データなしでゲノム全体の正確なマルチメガベーススケールの解釈は、疾患に関連する分子機構のより深い理解と、個人のレベルでの疾患リスク予測の改善の両方を可能にする。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本研究では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデルを提案する。
このモデルは分子生物学の中心的なドグマに固執し、タンパク質のコード配列を正確に生成する。
また、特にプロモーター配列の即応的な生成を通じて、シーケンス最適化において大きな可能性を示している。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - AI-driven multi-omics integration for multi-scale predictive modeling of causal genotype-environment-phenotype relationships [9.909750609459074]
そこで我々は,これらの問題に対処するために,AIを活用したバイオインスパイアされたマルチスケールモデリングフレームワークを提案する。
このフレームワークは、生物レベル、生物階層、種々にわたるマルチオミクスデータを統合し、様々な条件下で因果型-環境-フェノタイプ関係を予測する。
論文 参考訳(メタデータ) (2024-07-08T21:23:25Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Whole Genome Transformer for Gene Interaction Effects in Microbiome Habitat Specificity [3.972930262155919]
本研究では、遺伝子ベクター化のための既存の大規模モデルを利用して、微生物ゲノム配列全体から生息地特異性を予測する枠組みを提案する。
我々は、異なる生息地から得られた高品質のマイクロバイオームゲノムの大規模なデータセット上で、我々のアプローチを訓練し、検証する。
論文 参考訳(メタデータ) (2024-05-09T09:34:51Z) - Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。
まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。
次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文 参考訳(メタデータ) (2023-10-23T13:35:24Z) - Machine Learning Methods for Cancer Classification Using Gene Expression
Data: A Review [77.34726150561087]
がんは心臓血管疾患の2番目の死因である。
遺伝子発現は癌の早期発見において基本的な役割を担っている。
本研究は,機械学習を用いた癌分類における遺伝子発現解析の最近の進歩を概説する。
論文 参考訳(メタデータ) (2023-01-28T15:03:03Z) - Modelling Technical and Biological Effects in scRNA-seq data with
Scalable GPLVMs [6.708052194104378]
我々は,ガウス過程潜在変数モデルである確率的非線形次元減少に対する一般的なアプローチを拡張し,大規模単一セルデータセットに拡張する。
鍵となる考え方は、高速な変動推論を可能にする下位境界の分解可能性を保存する拡張カーネルを使用することである。
論文 参考訳(メタデータ) (2022-09-14T15:25:15Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - MutaGAN: A Seq2seq GAN Framework to Predict Mutations of Evolving
Protein Populations [0.0]
このディープラーニングフレームワークの理想的なテストケースとしてインフルエンザウイルス配列が同定された。
MutaGANは、中央のレベンシュテイン距離が2.00アミノ酸である与えられた「親」タンパク質配列から「子」配列を生成した。
結果は, 病原体予測を補助する MutaGAN フレームワークの能力が, タンパク質集団の進化予測に広く有用であることを示すものである。
論文 参考訳(メタデータ) (2020-08-26T20:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。