論文の概要: PWM2Vec: An Efficient Embedding Approach for Viral Host Specification
from Coronavirus Spike Sequences
- arxiv url: http://arxiv.org/abs/2201.02273v1
- Date: Thu, 6 Jan 2022 23:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-10 21:32:01.979288
- Title: PWM2Vec: An Efficient Embedding Approach for Viral Host Specification
from Coronavirus Spike Sequences
- Title(参考訳): PWM2Vec: コロナウイルススパイク配列からのウイルス宿主仕様の効率的な埋め込み手法
- Authors: Sarwan Ali, Babatunde Bello, Prakash Chourasia, Ria Thazhe Punathil,
Yijing Zhou, Murray Patterson
- Abstract要約: 我々は、致命的なウイルスのキャリアや送信者になりうる異なる宿主について研究する。
ウイルスでは、表面(S)タンパク質(スパイクタンパク質)が宿主の特異性を決定する重要な部分である。
我々は、よく知られた位置重み行列(PWM)に基づく特徴埋め込みを提案し、ウイルスのスパイクタンパク質配列から特徴ベクトルを生成する。
- 参考スコア(独自算出の注目度): 0.7340017786387767
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: COVID-19 pandemic, is still unknown and is an important open question. There
are speculations that bats are a possible origin. Likewise, there are many
closely related (corona-) viruses, such as SARS, which was found to be
transmitted through civets. The study of the different hosts which can be
potential carriers and transmitters of deadly viruses to humans is crucial to
understanding, mitigating and preventing current and future pandemics. In
coronaviruses, the surface (S) protein, or spike protein, is an important part
of determining host specificity since it is the point of contact between the
virus and the host cell membrane. In this paper, we classify the hosts of over
five thousand coronaviruses from their spike protein sequences, segregating
them into clusters of distinct hosts among avians, bats, camels, swines, humans
and weasels, to name a few. We propose a feature embedding based on the
well-known position-weight matrix (PWM), which we call PWM2Vec, and use to
generate feature vectors from the spike protein sequences of these
coronaviruses. While our embedding is inspired by the success of PWMs in
biological applications such as determining protein function, or identifying
transcription factor binding sites, we are the first (to the best of our
knowledge) to use PWMs in the context of host classification from viral
sequences to generate a fixed-length feature vector representation. The results
on the real world data show that in using PWM2Vec, we are able to perform
comparably well as compared to baseline models. We also measure the importance
of different amino acids using information gain to show the amino acids which
are important for predicting the host of a given coronavirus.
- Abstract(参考訳): 新型コロナウイルス(covid-19)のパンデミックはまだ不明だ。
コウモリが起源の可能性があるという憶測がある。
同様に、SARSのような近縁な(コロナウイルス)ウイルスが多数存在し、シベットを介して感染することが判明した。
ヒトへの致命的なウイルスのキャリアや送信者になりうる異なるホストの研究は、現在のパンデミックと将来のパンデミックを理解し、緩和し、予防するために重要である。
ウイルスでは、表面(s)タンパク質またはスパイクタンパク質は、ウイルスと宿主細胞膜との接触点であるため、宿主特異性を決定する重要な部分である。
本稿では, スパイクタンパク質配列から500万以上のウイルスの宿主を分類し, 鳥類, コウモリ, ラクダ, 豚, 人間, 麻疹の異なる宿主群に分離し, 数種の宿主を同定する。
我々は、PWM2Vecと呼ばれるよく知られた位置重み行列(PWM)に基づく特徴埋め込みを提案し、これらのウイルスのスパイクタンパク質配列から特徴ベクトルを生成する。
我々の埋め込みは、タンパク質機能の決定や転写因子結合部位の同定などの生物学的応用におけるPWMsの成功に触発されているが、ウイルス配列からのホスト分類の文脈でPWMsを使用して固定長の特徴ベクトル表現を生成するのはこれが初めてである。
実世界のデータから,PWM2Vecを用いることで,ベースラインモデルと同等に動作可能であることが示された。
また、情報ゲインを用いて異なるアミノ酸の重要性を測定し、特定のウイルスの宿主を予測する上で重要なアミノ酸を示す。
関連論文リスト
- Opponent Shaping for Antibody Development [49.26728828005039]
抗ウイルス療法は通常、ウイルスの現在の株のみを標的とするように設計されている。
治療によって誘導される選択的圧力はウイルスに作用し、変異株の出現を誘導し、初期治療が効果を低下させる。
我々は、ウイルスの進化的脱出の遺伝的シミュレーションを実装するために、抗体とウイルス抗原の結合の計算モデルを構築した。
論文 参考訳(メタデータ) (2024-09-16T14:56:27Z) - Virus2Vec: Viral Sequence Classification Using Machine Learning [48.40285316053593]
本稿では,バイラル・シークエンスのための特徴ベクトル表現であるVrus2Vecを提案する。
コロナウイルス科の実際のスパイク配列と狂犬病ウイルスのシークエンスデータに基づいてウイルス2Vecを実験的に評価し、宿主を予測した。
以上の結果から, Virus2Vecはベースラインおよび最先端手法の予測精度よりも優れていた。
論文 参考訳(メタデータ) (2023-04-24T08:17:16Z) - PCD2Vec: A Poisson Correction Distance-Based Approach for Viral Host
Classification [0.966840768820136]
コロナウイルス(英: Coronavirus)は、コロナウイルス科に属する膜に侵入し、非分節の正鎖RNAウイルスである。
コロナウイルスゲノムにおいて、重要な構造領域はスパイク領域であり、宿主の細胞膜にウイルスを付着させる責任がある。
本研究では、異なるウイルス亜属および種からスパイクタンパク質配列を解析することにより、ウイルスの宿主特異性を予測する新しい方法を提案する。
論文 参考訳(メタデータ) (2023-04-13T03:02:22Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Domain Invariant Model with Graph Convolutional Network for Mammogram
Classification [49.691629817104925]
グラフ畳み込みネットワークを用いたドメイン不変モデル(DIM-GCN)を提案する。
まず,潜伏変数を病原性その他の疾患関連部位に明示的に分解するベイズネットワークを提案する。
マクロな特徴をよりよく捉えるために、我々は、GCN(Graph Convolutional Network)を介して、観察された臨床特性を再構築の目的として活用する。
論文 参考訳(メタデータ) (2022-04-21T08:23:44Z) - Predicting Influenza A Viral Host Using PSSM and Word Embeddings [5.067354030054702]
我々は、位置特異的スコアリング行列(PSSM)から派生した特徴を持つ様々な機械学習モデルを用いて、ウイルスの起源ホストを推測する。
その結果,PSSMモデルの性能は95%程度に達し,F1は約96%であった。
論文 参考訳(メタデータ) (2022-01-04T14:05:49Z) - Classification of Influenza Hemagglutinin Protein Sequences using
Convolutional Neural Networks [8.397189036839956]
本稿では,インフルエンザA型ウイルスが特定の宿主,具体的にはヒト,鳥,豚の宿主に感染するかどうかを,HA遺伝子のタンパク質配列のみを用いて正確に予測することに焦点を当てる。
本稿では, タンパク質配列を疎水性指数を用いて数値信号に符号化し, その後, 畳み込みニューラルネットワークに基づく予測モデルを活用することを提案する。
その結果,ヒト,鳥,豚の宿主に感染するウイルスが検出された場合,HAタンパク質配列を高い精度で識別できることがわかった。
論文 参考訳(メタデータ) (2021-08-09T10:42:26Z) - A k-mer Based Approach for SARS-CoV-2 Variant Identification [55.78588835407174]
アミノ酸の順序を保つことで,分類器の精度が向上することを示す。
また,アメリカ疾病予防管理センター(CDC)が報告した,変異の同定に重要な役割を担っているアミノ酸の重要性も示した。
論文 参考訳(メタデータ) (2021-08-07T15:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。