論文の概要: Spike2Vec: An Efficient and Scalable Embedding Approach for COVID-19
Spike Sequences
- arxiv url: http://arxiv.org/abs/2109.05019v1
- Date: Sun, 12 Sep 2021 03:16:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 14:41:36.932409
- Title: Spike2Vec: An Efficient and Scalable Embedding Approach for COVID-19
Spike Sequences
- Title(参考訳): Spike2Vec: COVID-19スパイクシーケンスの効率的かつスケーラブルな埋め込みアプローチ
- Authors: Sarwan Ali; Murray Patterson
- Abstract要約: 数百万のゲノム配列がGISAIDなどのプラットフォームで公開されている。
Spike2Vecは、各スパイクシーケンスに対して効率的でスケーラブルな特徴ベクトル表現である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: With the rapid global spread of COVID-19, more and more data related to this
virus is becoming available, including genomic sequence data. The total number
of genomic sequences that are publicly available on platforms such as GISAID is
currently several million, and is increasing with every day. The availability
of such \textit{Big Data} creates a new opportunity for researchers to study
this virus in detail. This is particularly important with all of the dynamics
of the COVID-19 variants which emerge and circulate. This rich data source will
give us insights on the best ways to perform genomic surveillance for this and
future pandemic threats, with the ultimate goal of mitigating or eliminating
such threats. Analyzing and processing the several million genomic sequences is
a challenging task. Although traditional methods for sequence classification
are proven to be effective, they are not designed to deal with these specific
types of genomic sequences. Moreover, most of the existing methods also face
the issue of scalability. Previous studies which were tailored to coronavirus
genomic data proposed to use spike sequences (corresponding to a subsequence of
the genome), rather than using the complete genomic sequence, to perform
different machine learning (ML) tasks such as classification and clustering.
However, those methods suffer from scalability issues. In this paper, we
propose an approach called Spike2Vec, an efficient and scalable feature vector
representation for each spike sequence that can be used for downstream ML
tasks. Through experiments, we show that Spike2Vec is not only scalable on
several million spike sequences, but also outperforms the baseline models in
terms of prediction accuracy, F1-score, etc.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)の世界的な普及に伴い、ゲノム配列データを含む、このウイルスに関連するデータがますます増えつつある。
GISAIDなどのプラットフォームで公開されているゲノム配列の総数は、現在数百万であり、毎日増え続けている。
そのような \textit{big data} が利用可能になると、研究者はこのウイルスを詳細に研究する新たな機会が生まれる。
これは、covid-19の変種が出現し、循環する上で、特に重要である。
この豊富なデータソースは、このような脅威を緩和または排除するという究極の目標を掲げ、この状況と将来のパンデミック脅威に対するゲノム監視を行う最善の方法に関する洞察を提供する。
数百万のゲノム配列の解析と処理は難しい課題である。
従来の配列分類法は有効であることが証明されているが、これらの特定のゲノム配列を扱うように設計されていない。
さらに、既存のメソッドの多くはスケーラビリティの問題にも直面する。
コロナゲノムデータに合わせた以前の研究では、完全なゲノム配列ではなくスパイクシーケンス(ゲノムのサブシーケンスに対応する)を使用して分類やクラスタリングなどの異なる機械学習(ML)タスクを実行することが提案されていた。
しかし、これらの手法はスケーラビリティの問題に悩まされている。
本稿では,下流mlタスクに使用可能なスパイクシーケンス毎に,効率良くスケーラブルな機能ベクトル表現を行うspike2vecという手法を提案する。
実験により,Spike2Vecは数百万のスパイクシーケンスに対してスケーラブルであるだけでなく,予測精度やF1スコアなどの観点からも,ベースラインモデルよりも優れていることがわかった。
関連論文リスト
- ViralVectors: Compact and Scalable Alignment-free Virome Feature
Generation [0.7874708385247353]
SARS-CoV-2のシークエンシングデータの量は、どのウイルスよりも数桁大きい。
本稿では,効率的な下流解析が可能なビロメシークエンシングデータからコンパクトなベクトル生成であるEmphsignaturesを提案する。
論文 参考訳(メタデータ) (2023-04-06T06:46:17Z) - Evaluating COVID-19 Sequence Data Using Nearest-Neighbors Based Network
Model [0.0]
SARS-CoV-2(SARS-CoV-2)は、ヒトの新型コロナウイルス感染症の原因である。
異なる宿主に適応し、異なる系統に進化することができる。
主要なSARS-CoV-2系統はスパイクタンパク質で主に起こる突然変異によって特徴づけられることが知られている。
論文 参考訳(メタデータ) (2022-11-19T00:34:02Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z) - Robust Representation and Efficient Feature Selection Allows for
Effective Clustering of SARS-CoV-2 Variants [0.0]
SARS-CoV-2ウイルスは異なる変種を含み、それぞれ異なる変異を持つ。
SARS-CoV-2ゲノムの変異の多くは、ゲノム配列のスパイク領域で不均等に起こる。
本研究では,異なる既知の変異体の挙動を研究するために,スパイクタンパク質配列をクラスタ化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T21:18:52Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - Classifying COVID-19 Spike Sequences from Geographic Location Using Deep
Learning [0.0]
我々はまず,$k$-merssを用いてSARS-CoV-2のスパイクタンパク質配列の数値表現を計算するアルゴリズムを提案する。
また、スパイク配列における異なるアミノ酸の重要性を、真のクラスラベルに対応する情報ゲインを計算することによって示す。
論文 参考訳(メタデータ) (2021-10-02T14:09:30Z) - Effective and scalable clustering of SARS-CoV-2 sequences [0.41998444721319206]
SARS-CoV-2は進化過程に従って変異し続けている。
GISAIDなどの公開データベースで現在利用可能なSARS-CoV-2のシーケンス数は数百万である。
本稿では,現在のSARS-CoV-2変種をクラスタリングシーケンスに基づいて同定する手法を提案する。
論文 参考訳(メタデータ) (2021-08-18T13:32:43Z) - A k-mer Based Approach for SARS-CoV-2 Variant Identification [55.78588835407174]
アミノ酸の順序を保つことで,分類器の精度が向上することを示す。
また,アメリカ疾病予防管理センター(CDC)が報告した,変異の同定に重要な役割を担っているアミノ酸の重要性も示した。
論文 参考訳(メタデータ) (2021-08-07T15:08:15Z) - Two-step penalised logistic regression for multi-omic data with an
application to cardiometabolic syndrome [62.997667081978825]
我々は,各層で変数選択を行うマルチオミックロジスティック回帰に対する2段階のアプローチを実装した。
私たちのアプローチは、可能な限り多くの関連する予測子を選択することを目標とすべきです。
提案手法により,分子レベルでの心筋メタボリックシンドロームの特徴を同定することができる。
論文 参考訳(メタデータ) (2020-08-01T10:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。