Fugu-MT 論文翻訳(概要): SNP2Vec: Scalable Self-Supervised Pre-Training for Genome-Wide Association Study

論文の概要: SNP2Vec: Scalable Self-Supervised Pre-Training for Genome-Wide Association Study

arxiv url: http://arxiv.org/abs/2204.06699v1
Date: Thu, 14 Apr 2022 01:53:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-16 01:51:40.587263
Title: SNP2Vec: Scalable Self-Supervised Pre-Training for Genome-Wide Association Study
Title（参考訳）: SNP2Vec:ゲノムワイド研究のためのスケーラブルな自己監督型事前学習
Authors: Samuel Cahyawijaya, Tiezheng Yu, Zihan Liu, Tiffany T.W. Mak, Xiaopu Zhou, Nancy Y. Ip, Pascale Fung
Abstract要約: SNP2Vecは、SNPを理解するためのスケーラブルな自己教師付き事前学習手法である。本研究では,SNP2Vecを用いて時系列ゲノミクスモデリングを行う。中国コホートにおけるアルツハイマー病のリスク予測におけるアプローチの有効性について検討した。
参考スコア（独自算出の注目度）: 48.75445626157713
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Self-supervised pre-training methods have brought remarkable breakthroughs in the understanding of text, image, and speech. Recent developments in genomics has also adopted these pre-training methods for genome understanding. However, they focus only on understanding haploid sequences, which hinders their applicability towards understanding genetic variations, also known as single nucleotide polymorphisms (SNPs), which is crucial for genome-wide association study. In this paper, we introduce SNP2Vec, a scalable self-supervised pre-training approach for understanding SNP. We apply SNP2Vec to perform long-sequence genomics modeling, and we evaluate the effectiveness of our approach on predicting Alzheimer's disease risk in a Chinese cohort. Our approach significantly outperforms existing polygenic risk score methods and all other baselines, including the model that is trained entirely with haploid sequences. We release our code and dataset on https://github.com/HLTCHKUST/snp2vec.
Abstract（参考訳）: 自己指導型事前学習法は、テキスト、画像、および音声の理解において顕著なブレークスルーをもたらした。近年のゲノム学の発展は、これらの事前学習手法をゲノム理解に適用している。しかし、それらはハプロイド配列の理解のみに焦点を当てており、遺伝変異の理解への応用を妨げている(snps(single nucleotide polymorphisms)とも呼ばれる)。本稿では、SNPを理解するためのスケーラブルな自己教師型事前学習アプローチであるSNP2Vecを紹介する。我々はSNP2Vecを長期ゲノムモデリングに応用し,中国のコホートにおけるアルツハイマー病のリスクを予測するためのアプローチの有効性を評価する。提案手法は,ハプロイド配列で完全に訓練されたモデルを含む,既存のポリジェニックリスクスコア法および他のベースラインを著しく上回る。私たちはコードとデータセットをhttps://github.com/hltchkust/snp2vecでリリースします。

関連論文リスト

R-GenIMA: Integrating Neuroimaging and Genetics with Interpretable Multimodal AI for Alzheimer's Disease Progression [63.97617759805451]
アルツハイマー病の早期発見には、マクロスケールの神経解剖学的変化とマイクロスケールの遺伝的感受性を統合できるモデルが必要である。本稿では,新しいROIワイド・ビジョン・トランスフォーマと遺伝的プロンプトを結合した多モード多言語モデルR-GenIMAを紹介する。 R-GenIMAは、通常の認知、主観記憶、軽度認知障害、ADの4方向分類において最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-12-22T02:54:10Z)
BMFM-DNA: A SNP-aware DNA foundation model to capture variant effects [14.172782866715844]
テキストで訓練された大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて顕著な結果を示した。 DNAは、明確に定義された単語や一貫した文法が欠けているため、基本的に自然言語と異なる。配列の変動、特にSNP(Single Nucleotide Polymorphisms)を効果的に統合する事前訓練基礎モデル以上の結果から,DNALMに配列変化を組み込むことは,すべての微調整タスクの改善にみられる生物学的機能を把握するのに役立つことが示唆された。
論文参考訳（メタデータ） (2025-06-26T13:56:32Z)
Curriculum Learning for Biological Sequence Prediction: The Case of De Novo Peptide Sequencing [21.01399785232482]
本稿では,構造的タンパク質配列学習戦略を取り入れた非自己回帰ペプチドシークエンシングモデルを提案する。我々のカリキュラム学習戦略は、様々なデータ分布に対するサンプルトレーニングに基づいて、NATトレーニング失敗頻度を90%以上削減する。
論文参考訳（メタデータ） (2025-06-16T13:44:25Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
U-learning for Prediction Inference via Combinatory Multi-Subsampling: With Applications to LASSO and Neural Networks [5.587500517608073]
エピジェネティックな老化時計は、DNAメチル化パターンを調べることによって、個人の生物学的年齢を推定する上で重要な役割を担っている。アンサンブル予測のためのマルチサブラーニングによる新しいUサンプリング手法を提案する。より具体的には、一般化されたU統計学の枠組みにおけるアンサンブル推定器を概念化する。提案手法はLassoとDeep Neural Network(DNN)の2つの一般的な予測アルゴリズムに適用し,広範囲な数値研究による推論の有効性を示す。
論文参考訳（メタデータ） (2024-07-22T00:03:51Z)
VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文参考訳（メタデータ） (2024-05-13T20:15:03Z)
Path-GPTOmic: A Balanced Multi-modal Learning Framework for Survival Outcome Prediction [14.204637932937082]
本稿では,癌生存率予測のためのマルチモーダルパスGPTOmicフレームワークを提案する。基礎モデルである scGPT の埋め込み空間は,最初は単一セルRNA-seq で訓練された。生存予測のためのCox部分的可能性損失に対応する勾配変調機構を提案する。
論文参考訳（メタデータ） (2024-03-18T00:02:48Z)
Efficient and Scalable Fine-Tune of Language Models for Genome Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。 DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。 textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文参考訳（メタデータ） (2024-02-12T21:40:45Z)
Toward Understanding BERT-Like Pre-Training for DNA Foundation Models [78.48760388079523]
既存のDNA配列の事前訓練方法は、NLPからのBERT事前訓練の直接的な採用に依存している。マスク境界を連続的に拡張することにより,BERTライクな事前学習作業の難易度を徐々に向上させるRandomMaskという新しい手法を提案する。 RandomMaskは、マシューのエピジェネティック・マーク・予測の相関係数の68.16%を突破し、ベースラインの19.85%を突破した。
論文参考訳（メタデータ） (2023-10-11T16:40:57Z)
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。 Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文参考訳（メタデータ） (2023-06-27T20:46:34Z)
DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome [10.051595222470304]
我々は、k-merトークン化によって導入された計算とサンプルの非効率性が、大規模なゲノム基盤モデルの開発における主要な障害であると主張している。我々は、k-merトークン化をByte Pair$に置き換えることを提案するゲノムトークン化に関する概念的および実証的な洞察を提供する。 DNABERT-2は、効率的なトークン化を施し、入力長制約を克服するために複数の戦略を用いるゲノム基盤モデルである。
論文参考訳（メタデータ） (2023-06-26T18:43:46Z)
rfPhen2Gen: A machine learning based association study of brain imaging phenotypes to genotypes [71.1144397510333]
56個の脳画像QTを用いてSNPを予測する機械学習モデルを学習した。アルツハイマー病(AD)リスク遺伝子APOEのSNPは、ラスソとランダムな森林に対して最低のRMSEを有していた。ランダム・フォレストは、線形モデルによって優先順位付けされなかったが、脳関連疾患と関連があることが知られている追加のSNPを特定した。
論文参考訳（メタデータ） (2022-03-31T20:15:22Z)
An Integrated Deep Learning and Dynamic Programming Method for Predicting Tumor Suppressor Genes, Oncogenes, and Fusion from PDB Structures [0.0]
プロトオンコジーン(ONGO)の変異と腫瘍抑制遺伝子(TSG)の制御機能の欠如は、腫瘍増殖を制御していない一般的なメカニズムである。計算研究を通じてONGOやTSGに関連する遺伝子機能の可能性を見つけることは、疾患を標的とする薬物の開発に役立てることができる。本稿では,入力された3dタンパク質構造情報から特徴地図集合を抽出する前処理段階から開始する分類法を提案する。
論文参考訳（メタデータ） (2021-05-17T18:18:57Z)
EPGAT: Gene Essentiality Prediction With Graph Attention Networks [1.1602089225841632]
グラフ注意ネットワーク(GAT)に基づく本質性予測手法であるEPGATを提案する。本モデルでは,PPIネットワークから遺伝子必須性のパターンを直接学習し,ノード属性として符号化されたマルチオミクスデータから追加のエビデンスを統合する。ヒトを含む4種の生物に対するEPGATをベンチマークし、AUCスコア0.78から0.97の範囲で遺伝子本質を正確に予測した。
論文参考訳（メタデータ） (2020-07-19T13:47:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。