論文の概要: Classifying COVID-19 Spike Sequences from Geographic Location Using Deep
Learning
- arxiv url: http://arxiv.org/abs/2110.00809v1
- Date: Sat, 2 Oct 2021 14:09:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 12:06:45.569535
- Title: Classifying COVID-19 Spike Sequences from Geographic Location Using Deep
Learning
- Title(参考訳): 深層学習を用いた位置情報からのCOVID-19スパイクシーケンスの分類
- Authors: Sarwan Ali, Babatunde Bello, Murray Patterson
- Abstract要約: 我々はまず,$k$-merssを用いてSARS-CoV-2のスパイクタンパク質配列の数値表現を計算するアルゴリズムを提案する。
また、スパイク配列における異なるアミノ酸の重要性を、真のクラスラベルに対応する情報ゲインを計算することによって示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: With the rapid spread of COVID-19 worldwide, viral genomic data is available
in the order of millions of sequences on public databases such as GISAID. This
\emph{Big Data} creates a unique opportunity for analysis towards the research
of effective vaccine development for current pandemics, and avoiding or
mitigating future pandemics. One piece of information that comes with every
such viral sequence is the geographical location where it was collected -- the
patterns found between viral variants and geographic location surely being an
important part of this analysis. One major challenge that researchers face is
processing such huge, highly dimensional data to get useful insights as quickly
as possible. Most of the existing methods face scalability issues when dealing
with the magnitude of such data. In this paper, we propose an algorithm that
first computes a numerical representation of the spike protein sequence of
SARS-CoV-2 using $k$-mers substrings) and then uses a deep learning-based model
to classify the sequences in terms of geographical location. We show that our
proposed model significantly outperforms the baselines. We also show the
importance of different amino acids in the spike sequences by computing the
information gain corresponding to the true class labels.
- Abstract(参考訳): 世界的な新型コロナウイルスの急激な普及に伴い、GISAIDのような公共データベース上の数百万のシーケンスでウイルスゲノムデータが利用できるようになった。
この「emph{Big Data」は、現在のパンデミックに対する効果的なワクチン開発の研究に向けて分析し、将来のパンデミックを回避または緩和するユニークな機会を生み出します。
このようなウイルス配列の全てに付随する情報の1つが、収集された地理的な位置である -- ウイルス変異体と地理的な位置の間のパターンが、この分析の重要な部分であることは確かである。
研究者が直面する大きな課題の1つは、そのような巨大で高次元のデータを処理して、できるだけ早く有用な洞察を得ることです。
既存の手法のほとんどは、そのようなデータの規模を扱う際にスケーラビリティの問題に直面します。
本稿では,まず,sars-cov-2のスパイクタンパク質配列を$k$-mersサブストリングを用いて数値表現し,次に深層学習モデルを用いて地理的位置を分類するアルゴリズムを提案する。
提案モデルがベースラインを大きく上回っていることを示す。
また,真のクラスラベルに対応する情報ゲインを計算し,スパイク配列における異なるアミノ酸の重要性を示す。
関連論文リスト
- Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - Spatial Implicit Neural Representations for Global-Scale Species Mapping [72.92028508757281]
ある種が観察された場所の集合を考えると、その種がどこにいても存在しないかを予測するためのモデルを構築することが目的である。
従来の手法は、新たな大規模クラウドソースデータセットを活用するのに苦労している。
本研究では,47k種の地理的範囲を同時に推定するために,空間入射ニューラル表現(SINR)を用いる。
論文 参考訳(メタデータ) (2023-06-05T03:36:01Z) - ViralVectors: Compact and Scalable Alignment-free Virome Feature
Generation [0.7874708385247353]
SARS-CoV-2のシークエンシングデータの量は、どのウイルスよりも数桁大きい。
本稿では,効率的な下流解析が可能なビロメシークエンシングデータからコンパクトなベクトル生成であるEmphsignaturesを提案する。
論文 参考訳(メタデータ) (2023-04-06T06:46:17Z) - Evaluating COVID-19 Sequence Data Using Nearest-Neighbors Based Network
Model [0.0]
SARS-CoV-2(SARS-CoV-2)は、ヒトの新型コロナウイルス感染症の原因である。
異なる宿主に適応し、異なる系統に進化することができる。
主要なSARS-CoV-2系統はスパイクタンパク質で主に起こる突然変異によって特徴づけられることが知られている。
論文 参考訳(メタデータ) (2022-11-19T00:34:02Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Efficient Analysis of COVID-19 Clinical Data using Machine Learning
Models [0.0]
膨大な量のデータとケーススタディが公開されており、研究者がトレンドを見つけるユニークな機会を提供している。
機械学習ベースのアルゴリズムをこのビッグデータに適用することは、この目的を達成するための自然なアプローチである。
効率的な特徴選択アルゴリズムにより,ほとんどの場合,90%以上の予測精度が得られることを示す。
論文 参考訳(メタデータ) (2021-10-18T20:06:01Z) - Spike2Vec: An Efficient and Scalable Embedding Approach for COVID-19
Spike Sequences [0.0]
数百万のゲノム配列がGISAIDなどのプラットフォームで公開されている。
Spike2Vecは、各スパイクシーケンスに対して効率的でスケーラブルな特徴ベクトル表現である。
論文 参考訳(メタデータ) (2021-09-12T03:16:27Z) - A k-mer Based Approach for SARS-CoV-2 Variant Identification [55.78588835407174]
アミノ酸の順序を保つことで,分類器の精度が向上することを示す。
また,アメリカ疾病予防管理センター(CDC)が報告した,変異の同定に重要な役割を担っているアミノ酸の重要性も示した。
論文 参考訳(メタデータ) (2021-08-07T15:08:15Z) - Early Detection of COVID-19 Hotspots Using Spatio-Temporal Data [66.70036251870988]
疾病予防管理センター(CDC)は他の連邦機関と協力して、新型コロナウイルス(COVID-19)の感染が増加する郡(ホットスポット)を特定する。
本稿では,米国における新型コロナウイルスホットスポットの早期発見のためのスパースモデルを提案する。
深層ニューラルネットワークは、カーネルの解釈可能性を維持しながらモデルの代表的なパワーを高めるために導入されている。
論文 参考訳(メタデータ) (2021-05-31T19:28:17Z) - Deep learning for time series classification [2.0305676256390934]
時系列分析により、時間の経過とともにプロセスの進化を可視化し、理解することができます。
時系列分類は時系列データを自動的にラベル付けするアルゴリズムで構成されている。
ディープラーニングは、教師付き分類タスクに対処する最も効果的な方法の1つとして登場した。
論文 参考訳(メタデータ) (2020-10-01T17:38:40Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。