論文の概要: SNP2Vec: Scalable Self-Supervised Pre-Training for Genome-Wide
Association Study
- arxiv url: http://arxiv.org/abs/2204.06699v1
- Date: Thu, 14 Apr 2022 01:53:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-16 01:51:40.587263
- Title: SNP2Vec: Scalable Self-Supervised Pre-Training for Genome-Wide
Association Study
- Title(参考訳): SNP2Vec:ゲノムワイド研究のためのスケーラブルな自己監督型事前学習
- Authors: Samuel Cahyawijaya, Tiezheng Yu, Zihan Liu, Tiffany T.W. Mak, Xiaopu
Zhou, Nancy Y. Ip, Pascale Fung
- Abstract要約: SNP2Vecは、SNPを理解するためのスケーラブルな自己教師付き事前学習手法である。
本研究では,SNP2Vecを用いて時系列ゲノミクスモデリングを行う。
中国コホートにおけるアルツハイマー病のリスク予測におけるアプローチの有効性について検討した。
- 参考スコア(独自算出の注目度): 48.75445626157713
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Self-supervised pre-training methods have brought remarkable breakthroughs in
the understanding of text, image, and speech. Recent developments in genomics
has also adopted these pre-training methods for genome understanding. However,
they focus only on understanding haploid sequences, which hinders their
applicability towards understanding genetic variations, also known as single
nucleotide polymorphisms (SNPs), which is crucial for genome-wide association
study. In this paper, we introduce SNP2Vec, a scalable self-supervised
pre-training approach for understanding SNP. We apply SNP2Vec to perform
long-sequence genomics modeling, and we evaluate the effectiveness of our
approach on predicting Alzheimer's disease risk in a Chinese cohort. Our
approach significantly outperforms existing polygenic risk score methods and
all other baselines, including the model that is trained entirely with haploid
sequences. We release our code and dataset on
https://github.com/HLTCHKUST/snp2vec.
- Abstract(参考訳): 自己指導型事前学習法は、テキスト、画像、および音声の理解において顕著なブレークスルーをもたらした。
近年のゲノム学の発展は、これらの事前学習手法をゲノム理解に適用している。
しかし、それらはハプロイド配列の理解のみに焦点を当てており、遺伝変異の理解への応用を妨げている(snps(single nucleotide polymorphisms)とも呼ばれる)。
本稿では、SNPを理解するためのスケーラブルな自己教師型事前学習アプローチであるSNP2Vecを紹介する。
我々はSNP2Vecを長期ゲノムモデリングに応用し,中国のコホートにおけるアルツハイマー病のリスクを予測するためのアプローチの有効性を評価する。
提案手法は,ハプロイド配列で完全に訓練されたモデルを含む,既存のポリジェニックリスクスコア法および他のベースラインを著しく上回る。
私たちはコードとデータセットをhttps://github.com/hltchkust/snp2vecでリリースします。
関連論文リスト
- U-learning for Prediction Inference via Combinatory Multi-Subsampling: With Applications to LASSO and Neural Networks [5.587500517608073]
エピジェネティックな老化時計は、DNAメチル化パターンを調べることによって、個人の生物学的年齢を推定する上で重要な役割を担っている。
アンサンブル予測のためのマルチサブラーニングによる新しいUサンプリング手法を提案する。
より具体的には、一般化されたU統計学の枠組みにおけるアンサンブル推定器を概念化する。
提案手法はLassoとDeep Neural Network(DNN)の2つの一般的な予測アルゴリズムに適用し,広範囲な数値研究による推論の有効性を示す。
論文 参考訳(メタデータ) (2024-07-22T00:03:51Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Path-GPTOmic: A Balanced Multi-modal Learning Framework for Survival Outcome Prediction [14.204637932937082]
本稿では,癌生存率予測のためのマルチモーダルパスGPTOmicフレームワークを提案する。
基礎モデルである scGPT の埋め込み空間は,最初は単一セルRNA-seq で訓練された。
生存予測のためのCox部分的可能性損失に対応する勾配変調機構を提案する。
論文 参考訳(メタデータ) (2024-03-18T00:02:48Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - Toward Understanding BERT-Like Pre-Training for DNA Foundation Models [78.48760388079523]
既存のDNA配列の事前訓練方法は、NLPからのBERT事前訓練の直接的な採用に依存している。
マスク境界を連続的に拡張することにより,BERTライクな事前学習作業の難易度を徐々に向上させるRandomMaskという新しい手法を提案する。
RandomMaskは、マシューのエピジェネティック・マーク・予測の相関係数の68.16%を突破し、ベースラインの19.85%を突破した。
論文 参考訳(メタデータ) (2023-10-11T16:40:57Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome [10.051595222470304]
我々は、k-merトークン化によって導入された計算とサンプルの非効率性が、大規模なゲノム基盤モデルの開発における主要な障害であると主張している。
我々は、k-merトークン化をByte Pair$に置き換えることを提案するゲノムトークン化に関する概念的および実証的な洞察を提供する。
DNABERT-2は、効率的なトークン化を施し、入力長制約を克服するために複数の戦略を用いるゲノム基盤モデルである。
論文 参考訳(メタデータ) (2023-06-26T18:43:46Z) - rfPhen2Gen: A machine learning based association study of brain imaging
phenotypes to genotypes [71.1144397510333]
56個の脳画像QTを用いてSNPを予測する機械学習モデルを学習した。
アルツハイマー病(AD)リスク遺伝子APOEのSNPは、ラスソとランダムな森林に対して最低のRMSEを有していた。
ランダム・フォレストは、線形モデルによって優先順位付けされなかったが、脳関連疾患と関連があることが知られている追加のSNPを特定した。
論文 参考訳(メタデータ) (2022-03-31T20:15:22Z) - An Integrated Deep Learning and Dynamic Programming Method for
Predicting Tumor Suppressor Genes, Oncogenes, and Fusion from PDB Structures [0.0]
プロトオンコジーン(ONGO)の変異と腫瘍抑制遺伝子(TSG)の制御機能の欠如は、腫瘍増殖を制御していない一般的なメカニズムである。
計算研究を通じてONGOやTSGに関連する遺伝子機能の可能性を見つけることは、疾患を標的とする薬物の開発に役立てることができる。
本稿では,入力された3dタンパク質構造情報から特徴地図集合を抽出する前処理段階から開始する分類法を提案する。
論文 参考訳(メタデータ) (2021-05-17T18:18:57Z) - EPGAT: Gene Essentiality Prediction With Graph Attention Networks [1.1602089225841632]
グラフ注意ネットワーク(GAT)に基づく本質性予測手法であるEPGATを提案する。
本モデルでは,PPIネットワークから遺伝子必須性のパターンを直接学習し,ノード属性として符号化されたマルチオミクスデータから追加のエビデンスを統合する。
ヒトを含む4種の生物に対するEPGATをベンチマークし、AUCスコア0.78から0.97の範囲で遺伝子本質を正確に予測した。
論文 参考訳(メタデータ) (2020-07-19T13:47:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。