論文の概要: PhyloTransformer: A Discriminative Model for Mutation Prediction Based
on a Multi-head Self-attention Mechanism
- arxiv url: http://arxiv.org/abs/2111.01969v1
- Date: Wed, 3 Nov 2021 01:30:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 14:02:44.589899
- Title: PhyloTransformer: A Discriminative Model for Mutation Prediction Based
on a Multi-head Self-attention Mechanism
- Title(参考訳): Phylo Transformer:マルチヘッド自己注意機構に基づく突然変異予測の判別モデル
- Authors: Yingying Wu, Shusheng Xu, Shing-Tung Yau, Yi Wu
- Abstract要約: 重症急性呼吸器症候群ウイルス2(SARS-CoV-2)は10/19/21で219万人が感染し、死亡率は3.6%となっている。
そこで我々は,トランスフォーマーを用いた識別モデルであるPhylo Transformerを開発した。
- 参考スコア(独自算出の注目度): 10.468453827172477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) has caused an
ongoing pandemic infecting 219 million people as of 10/19/21, with a 3.6%
mortality rate. Natural selection can generate favorable mutations with
improved fitness advantages; however, the identified coronaviruses may be the
tip of the iceberg, and potentially more fatal variants of concern (VOCs) may
emerge over time. Understanding the patterns of emerging VOCs and forecasting
mutations that may lead to gain of function or immune escape is urgently
required. Here we developed PhyloTransformer, a Transformer-based
discriminative model that engages a multi-head self-attention mechanism to
model genetic mutations that may lead to viral reproductive advantage. In order
to identify complex dependencies between the elements of each input sequence,
PhyloTransformer utilizes advanced modeling techniques, including a novel Fast
Attention Via positive Orthogonal Random features approach (FAVOR+) from
Performer, and the Masked Language Model (MLM) from Bidirectional Encoder
Representations from Transformers (BERT). PhyloTransformer was trained with
1,765,297 genetic sequences retrieved from the Global Initiative for Sharing
All Influenza Data (GISAID) database. Firstly, we compared the prediction
accuracy of novel mutations and novel combinations using extensive baseline
models; we found that PhyloTransformer outperformed every baseline method with
statistical significance. Secondly, we examined predictions of mutations in
each nucleotide of the receptor binding motif (RBM), and we found our
predictions were precise and accurate. Thirdly, we predicted modifications of
N-glycosylation sites to identify mutations associated with altered
glycosylation that may be favored during viral evolution. We anticipate that
PhyloTransformer may guide proactive vaccine design for effective targeting of
future SARS-CoV-2 variants.
- Abstract(参考訳): 重症急性呼吸器症候群ウイルス2(SARS-CoV-2)は10/19/21で219万人が感染し、死亡率は3.6%となっている。
しかし、特定されたウイルスは氷山の一角であり、潜在的に致命的な種類の懸念(VOC)が時間とともに出現する可能性がある。
出現するVOCのパターンを理解し、機能の獲得や免疫的脱出につながる可能性のある突然変異を予測することが急務である。
そこで我々は遺伝子変異をモデル化するために多頭自己付着機構を組み込んだトランスフォーマによる識別モデルであるphylotransformerを開発した。
入力シーケンスの各要素間の複雑な依存関係を識別するために、Phylo TransformerはPerformerからの新しいFast Attention Via positive Orthogonal Random Feature approach (FAVOR+)、Bidirectional Encoder Representations from Transformers (BERT)からのMasked Language Model (MLM)など、高度なモデリング技術を使用している。
PhyloTransformerはGISAID(Global Initiative for Sharing All Influenza Data)データベースから取得した1,765,297の遺伝子配列で訓練された。
まず,新しい変異と新しい組み合わせの予測精度を広範なベースラインモデルを用いて比較したところ,PhyloTransformerはすべてのベースライン法で統計的に優れていた。
次に、受容体結合モチーフ(rbm)の各ヌクレオチドの変異の予測について検討し、その予測が正確かつ正確であることを見出した。
第3に,N-グリコシル化部位の変異を予測し,ウイルスの進化に好適な変異を同定した。
我々はPhyloTransformerが将来のSARS-CoV-2変異体を効果的に標的としたプロアクティブワクチン設計を導くことを期待する。
関連論文リスト
- Opponent Shaping for Antibody Development [49.26728828005039]
抗ウイルス療法は通常、ウイルスの現在の株のみを標的とするように設計されている。
治療によって誘導される選択的圧力はウイルスに作用し、変異株の出現を誘導し、初期治療が効果を低下させる。
我々は、ウイルスの進化的脱出の遺伝的シミュレーションを実装するために、抗体とウイルス抗原の結合の計算モデルを構築した。
論文 参考訳(メタデータ) (2024-09-16T14:56:27Z) - Predicting Genetic Mutation from Whole Slide Images via Biomedical-Linguistic Knowledge Enhanced Multi-label Classification [119.13058298388101]
遺伝子変異予測性能を向上させるため,生物知識を付加したPathGenomic Multi-label Transformerを開発した。
BPGTはまず、2つの慎重に設計されたモジュールによって遺伝子前駆体を構成する新しい遺伝子エンコーダを確立する。
BPGTはその後ラベルデコーダを設計し、最終的に2つの調整されたモジュールによる遺伝的突然変異予測を行う。
論文 参考訳(メタデータ) (2024-06-05T06:42:27Z) - Predicting loss-of-function impact of genetic mutations: a machine
learning approach [0.0]
本稿では,遺伝子変異の属性に基づいて機械学習モデルを学習し,LoFtoolスコアを予測することを目的とする。
これらの属性には、染色体上の突然変異の位置、アミノ酸の変化、変異によって引き起こされるコドンの変化が含まれていた。
モデルは, 平均2乗誤差, 平均2乗誤差, 平均2乗誤差, 平均絶対誤差, 説明分散の5倍のクロスバリデード平均を用いて評価した。
論文 参考訳(メタデータ) (2024-01-26T19:27:38Z) - Dense Feature Memory Augmented Transformers for COVID-19 Vaccination
Search Classification [60.49594822215981]
本稿では,新型コロナウイルスワクチン関連検索クエリの分類モデルを提案する。
本稿では,モデルが対応可能なメモリトークンとして,高密度特徴を考慮した新しい手法を提案する。
この新しいモデリング手法により,Vaccine Search Insights (VSI) タスクを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-12-16T13:57:41Z) - InForecaster: Forecasting Influenza Hemagglutinin Mutations Through the
Lens of Anomaly Detection [3.5213888068272197]
異常検出(AD)は機械学習(ML)において確立された分野である
我々は,異常検出(AD)によってこの問題に取り組むことを提案する。
公開されている4つのデータセットに対して、多数の実験を行います。
論文 参考訳(メタデータ) (2022-10-25T02:08:09Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Using Deep Learning Sequence Models to Identify SARS-CoV-2 Divergence [1.9573380763700707]
SARS-CoV-2は上層呼吸器系RNAウイルスで、2021年5月時点で300万人以上が死亡し、全世界で1億5000万人以上が感染している。
本稿では、繰り返しおよび畳み込み単位を利用してスパイクタンパク質のアミノ酸配列を取り込み、対応するクレードを分類するニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2021-11-12T07:52:11Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - Effective and scalable clustering of SARS-CoV-2 sequences [0.41998444721319206]
SARS-CoV-2は進化過程に従って変異し続けている。
GISAIDなどの公開データベースで現在利用可能なSARS-CoV-2のシーケンス数は数百万である。
本稿では,現在のSARS-CoV-2変種をクラスタリングシーケンスに基づいて同定する手法を提案する。
論文 参考訳(メタデータ) (2021-08-18T13:32:43Z) - A k-mer Based Approach for SARS-CoV-2 Variant Identification [55.78588835407174]
アミノ酸の順序を保つことで,分類器の精度が向上することを示す。
また,アメリカ疾病予防管理センター(CDC)が報告した,変異の同定に重要な役割を担っているアミノ酸の重要性も示した。
論文 参考訳(メタデータ) (2021-08-07T15:08:15Z) - MutaGAN: A Seq2seq GAN Framework to Predict Mutations of Evolving
Protein Populations [0.0]
このディープラーニングフレームワークの理想的なテストケースとしてインフルエンザウイルス配列が同定された。
MutaGANは、中央のレベンシュテイン距離が2.00アミノ酸である与えられた「親」タンパク質配列から「子」配列を生成した。
結果は, 病原体予測を補助する MutaGAN フレームワークの能力が, タンパク質集団の進化予測に広く有用であることを示すものである。
論文 参考訳(メタデータ) (2020-08-26T20:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。