論文の概要: Effective and scalable clustering of SARS-CoV-2 sequences
- arxiv url: http://arxiv.org/abs/2108.08143v1
- Date: Wed, 18 Aug 2021 13:32:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-19 18:34:02.552788
- Title: Effective and scalable clustering of SARS-CoV-2 sequences
- Title(参考訳): SARS-CoV-2配列の効果的でスケーラブルなクラスタリング
- Authors: Sarwan Ali, Tamkanat-E-Ali, Muhammad Asad Khan, Imdadullah Khan,
Murray Patterson
- Abstract要約: SARS-CoV-2は進化過程に従って変異し続けている。
GISAIDなどの公開データベースで現在利用可能なSARS-CoV-2のシーケンス数は数百万である。
本稿では,現在のSARS-CoV-2変種をクラスタリングシーケンスに基づいて同定する手法を提案する。
- 参考スコア(独自算出の注目度): 0.41998444721319206
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: SARS-CoV-2, like any other virus, continues to mutate as it spreads,
according to an evolutionary process. Unlike any other virus, the number of
currently available sequences of SARS-CoV-2 in public databases such as GISAID
is already several million. This amount of data has the potential to uncover
the evolutionary dynamics of a virus like never before. However, a million is
already several orders of magnitude beyond what can be processed by the
traditional methods designed to reconstruct a virus's evolutionary history,
such as those that build a phylogenetic tree. Hence, new and scalable methods
will need to be devised in order to make use of the ever increasing number of
viral sequences being collected.
Since identifying variants is an important part of understanding the
evolution of a virus, in this paper, we propose an approach based on clustering
sequences to identify the current major SARS-CoV-2 variants. Using a $k$-mer
based feature vector generation and efficient feature selection methods, our
approach is effective in identifying variants, as well as being efficient and
scalable to millions of sequences. Such a clustering method allows us to show
the relative proportion of each variant over time, giving the rate of spread of
each variant in different locations -- something which is important for vaccine
development and distribution. We also compute the importance of each amino acid
position of the spike protein in identifying a given variant in terms of
information gain. Positions of high variant-specific importance tend to agree
with those reported by the USA's Centers for Disease Control and Prevention
(CDC), further demonstrating our approach.
- Abstract(参考訳): SARS-CoV-2は、他のウイルスと同様に、進化過程に従って変異し続けている。
他のどのウイルスとは異なり、gisaidのような公開データベースで現在利用可能なsars-cov-2の配列の数は、すでに数百万である。
この量のデータは、かつてないほどウイルスの進化のダイナミクスを明らかにする可能性がある。
しかし、百万は、系統樹を作るような、ウイルスの進化の歴史を再構築するために設計された伝統的な方法によって処理できる範囲を超えて、すでに数桁の大きさである。
したがって、収集されるウイルス配列の数が増え続けるために、新しいスケーラブルな方法が考案される必要がある。
本稿では,ウイルスの進化を理解する上で,変種を同定することが重要であることから,現在のSARS-CoV-2変種を同定するためのクラスタリングシーケンスに基づくアプローチを提案する。
提案手法は,$k$-merベースの特徴ベクトル生成と効率的な特徴選択手法を用いて,変種を同定し,数百万のシーケンスに対して効率的かつスケーラブルである。
このようなクラスタリング手法により、各変異の相対的な比率を時間とともに示すことができ、ワクチン開発と配布において重要な、それぞれの変異が異なる場所で拡散する率を与えます。
また,スパイクタンパク質の各アミノ酸位置が,情報ゲインの観点から与えられた変異を同定する上で重要であることも計算した。
米国疾病予防管理センター(cdc)の報告と高い変異特異性の位置は一致しがちであり、このアプローチをさらに実証する。
関連論文リスト
- Virus2Vec: Viral Sequence Classification Using Machine Learning [48.40285316053593]
本稿では,バイラル・シークエンスのための特徴ベクトル表現であるVrus2Vecを提案する。
コロナウイルス科の実際のスパイク配列と狂犬病ウイルスのシークエンスデータに基づいてウイルス2Vecを実験的に評価し、宿主を予測した。
以上の結果から, Virus2Vecはベースラインおよび最先端手法の予測精度よりも優れていた。
論文 参考訳(メタデータ) (2023-04-24T08:17:16Z) - Efficient Classification of SARS-CoV-2 Spike Sequences Using Federated
Learning [4.497217246897902]
データ共有なしでSARS-CoV-2スパイクシーケンスを分散解析する。
我々は、新型コロナウイルスの変種識別タスクにおいて、全体的な精度を93%の精度で達成した。
我々は、この概念実証を利用して、プライバシ保護パンデミック対応戦略を実装する予定です。
論文 参考訳(メタデータ) (2023-02-17T04:41:39Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Using Deep Learning Sequence Models to Identify SARS-CoV-2 Divergence [1.9573380763700707]
SARS-CoV-2は上層呼吸器系RNAウイルスで、2021年5月時点で300万人以上が死亡し、全世界で1億5000万人以上が感染している。
本稿では、繰り返しおよび畳み込み単位を利用してスパイクタンパク質のアミノ酸配列を取り込み、対応するクレードを分類するニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2021-11-12T07:52:11Z) - Robust Representation and Efficient Feature Selection Allows for
Effective Clustering of SARS-CoV-2 Variants [0.0]
SARS-CoV-2ウイルスは異なる変種を含み、それぞれ異なる変異を持つ。
SARS-CoV-2ゲノムの変異の多くは、ゲノム配列のスパイク領域で不均等に起こる。
本研究では,異なる既知の変異体の挙動を研究するために,スパイクタンパク質配列をクラスタ化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T21:18:52Z) - Spike2Vec: An Efficient and Scalable Embedding Approach for COVID-19
Spike Sequences [0.0]
数百万のゲノム配列がGISAIDなどのプラットフォームで公開されている。
Spike2Vecは、各スパイクシーケンスに対して効率的でスケーラブルな特徴ベクトル表現である。
論文 参考訳(メタデータ) (2021-09-12T03:16:27Z) - A k-mer Based Approach for SARS-CoV-2 Variant Identification [55.78588835407174]
アミノ酸の順序を保つことで,分類器の精度が向上することを示す。
また,アメリカ疾病予防管理センター(CDC)が報告した,変異の同定に重要な役割を担っているアミノ酸の重要性も示した。
論文 参考訳(メタデータ) (2021-08-07T15:08:15Z) - Epigenetic evolution of deep convolutional models [81.21462458089142]
我々は、より深い畳み込みモデルを進化させるために、これまで提案されていた神経進化の枠組みを構築した。
異なる形状と大きさのカーネルを同一層内に共存させる畳み込み層配置を提案する。
提案したレイアウトにより、畳み込み層内の個々のカーネルのサイズと形状を、対応する新しい突然変異演算子で進化させることができる。
論文 参考訳(メタデータ) (2021-04-12T12:45:16Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。