論文の概要: Robust Representation and Efficient Feature Selection Allows for
Effective Clustering of SARS-CoV-2 Variants
- arxiv url: http://arxiv.org/abs/2110.09622v1
- Date: Mon, 18 Oct 2021 21:18:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 02:36:01.735868
- Title: Robust Representation and Efficient Feature Selection Allows for
Effective Clustering of SARS-CoV-2 Variants
- Title(参考訳): SARS-CoV-2変数の効率的なクラスタリングのためのロバスト表現と効率的な特徴選択
- Authors: Zahra Tayebi, Sarwan Ali, Murray Patterson
- Abstract要約: SARS-CoV-2ウイルスは異なる変種を含み、それぞれ異なる変異を持つ。
SARS-CoV-2ゲノムの変異の多くは、ゲノム配列のスパイク領域で不均等に起こる。
本研究では,異なる既知の変異体の挙動を研究するために,スパイクタンパク質配列をクラスタ化する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The widespread availability of large amounts of genomic data on the
SARS-CoV-2 virus, as a result of the COVID-19 pandemic, has created an
opportunity for researchers to analyze the disease at a level of detail unlike
any virus before it. One one had, this will help biologists, policy makers and
other authorities to make timely and appropriate decisions to control the
spread of the coronavirus. On the other hand, such studies will help to more
effectively deal with any possible future pandemic. Since the SARS-CoV-2 virus
contains different variants, each of them having different mutations,
performing any analysis on such data becomes a difficult task. It is well known
that much of the variation in the SARS-CoV-2 genome happens disproportionately
in the spike region of the genome sequence -- the relatively short region which
codes for the spike protein(s). Hence, in this paper, we propose an approach to
cluster spike protein sequences in order to study the behavior of different
known variants that are increasing at very high rate throughout the world. We
use a k-mers based approach to first generate a fixed-length feature vector
representation for the spike sequences. We then show that with the appropriate
feature selection, we can efficiently and effectively cluster the spike
sequences based on the different variants. Using a publicly available set of
SARS-CoV-2 spike sequences, we perform clustering of these sequences using both
hard and soft clustering methods and show that with our feature selection
methods, we can achieve higher F1 scores for the clusters.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)のパンデミックにより、SARS-CoV-2ウイルス上の大量のゲノムデータが広範囲に利用可能になったことで、研究者はウイルス以前のどのウイルスよりも詳細なレベルでこの病気を分析する機会を得た。
ひとつは、新型コロナウイルスの感染拡大を制御するために、生物学者や政策立案者、その他の当局が適時かつ適切な判断を下すのに役立つことだ。
一方で、こうした研究は、将来のパンデミックの可能性をより効果的に扱うのに役立つだろう。
SARS-CoV-2ウイルスは異なる変種を含むため、それぞれ異なる変異を持ち、そのようなデータの解析は難しい課題となる。
sars-cov-2ゲノムの変異の多くは、スパイクタンパク質(s)をコードする比較的短い領域であるゲノム配列のスパイク領域において不釣り合いに起こることが知られている。
そこで本稿では,世界中で非常に高い速度で増加している既知の変異体の挙動を研究するために,スパイクタンパク質配列をクラスター化する手法を提案する。
まず,k-mers法を用いてスパイク列の固定長特徴ベクトル表現を生成する。
次に、適切な特徴選択により、異なる変種に基づいてスパイクシーケンスを効率的かつ効果的にクラスタ化できることを示す。
sars-cov-2スパイクシーケンスの公開セットを用いて,ハードクラスタリングとソフトクラスタリングの2つの手法を用いて,これらのシーケンスのクラスタリングを行い,特徴選択手法により,クラスタのf1スコアを高めることができることを示す。
関連論文リスト
- ViralVectors: Compact and Scalable Alignment-free Virome Feature
Generation [0.7874708385247353]
SARS-CoV-2のシークエンシングデータの量は、どのウイルスよりも数桁大きい。
本稿では,効率的な下流解析が可能なビロメシークエンシングデータからコンパクトなベクトル生成であるEmphsignaturesを提案する。
論文 参考訳(メタデータ) (2023-04-06T06:46:17Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - SelectAugment: Hierarchical Deterministic Sample Selection for Data
Augmentation [72.58308581812149]
そこで我々は,SelectAugmentと呼ばれる効果的な手法を提案し,決定論的かつオンラインに拡張するサンプルを選択する。
具体的には、各バッチにおいて、まず増分比率を決定し、次にこの比で各トレーニングサンプルを増分するかを決定する。
これにより、サンプルを増量する際のランダム性による負の効果を効果的に軽減し、DAの有効性を向上させることができる。
論文 参考訳(メタデータ) (2021-12-06T08:38:38Z) - Using Deep Learning Sequence Models to Identify SARS-CoV-2 Divergence [1.9573380763700707]
SARS-CoV-2は上層呼吸器系RNAウイルスで、2021年5月時点で300万人以上が死亡し、全世界で1億5000万人以上が感染している。
本稿では、繰り返しおよび畳み込み単位を利用してスパイクタンパク質のアミノ酸配列を取り込み、対応するクレードを分類するニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2021-11-12T07:52:11Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - Spike2Vec: An Efficient and Scalable Embedding Approach for COVID-19
Spike Sequences [0.0]
数百万のゲノム配列がGISAIDなどのプラットフォームで公開されている。
Spike2Vecは、各スパイクシーケンスに対して効率的でスケーラブルな特徴ベクトル表現である。
論文 参考訳(メタデータ) (2021-09-12T03:16:27Z) - Effective and scalable clustering of SARS-CoV-2 sequences [0.41998444721319206]
SARS-CoV-2は進化過程に従って変異し続けている。
GISAIDなどの公開データベースで現在利用可能なSARS-CoV-2のシーケンス数は数百万である。
本稿では,現在のSARS-CoV-2変種をクラスタリングシーケンスに基づいて同定する手法を提案する。
論文 参考訳(メタデータ) (2021-08-18T13:32:43Z) - A k-mer Based Approach for SARS-CoV-2 Variant Identification [55.78588835407174]
アミノ酸の順序を保つことで,分類器の精度が向上することを示す。
また,アメリカ疾病予防管理センター(CDC)が報告した,変異の同定に重要な役割を担っているアミノ酸の重要性も示した。
論文 参考訳(メタデータ) (2021-08-07T15:08:15Z) - Early Detection of COVID-19 Hotspots Using Spatio-Temporal Data [66.70036251870988]
疾病予防管理センター(CDC)は他の連邦機関と協力して、新型コロナウイルス(COVID-19)の感染が増加する郡(ホットスポット)を特定する。
本稿では,米国における新型コロナウイルスホットスポットの早期発見のためのスパースモデルを提案する。
深層ニューラルネットワークは、カーネルの解釈可能性を維持しながらモデルの代表的なパワーを高めるために導入されている。
論文 参考訳(メタデータ) (2021-05-31T19:28:17Z) - Understanding the temporal evolution of COVID-19 research through
machine learning and natural language processing [66.63200823918429]
重症急性呼吸器症候群2号(SARS-CoV-2)による新型コロナウイルス感染症(COVID-19)の流行は、世界中の人々の生活や社会に影響を与え続けている。
私たちは複数のデータソース、すなわちPubMedとArXivを使用し、現在のCOVID-19研究の風景を特徴づけるために、いくつかの機械学習モデルを構築しました。
調査の結果,PubMedとArXivで利用可能な研究の種類は異なることが確認された。
論文 参考訳(メタデータ) (2020-07-22T18:02:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。