論文の概要: ViralVectors: Compact and Scalable Alignment-free Virome Feature
Generation
- arxiv url: http://arxiv.org/abs/2304.02891v2
- Date: Fri, 7 Apr 2023 11:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 14:16:14.551676
- Title: ViralVectors: Compact and Scalable Alignment-free Virome Feature
Generation
- Title(参考訳): ViralVectors: コンパクトでスケーラブルなアライメントフリーなVirome機能生成
- Authors: Sarwan Ali, Prakash Chourasia, Zahra Tayebi, Babatunde Bello, Murray
Patterson
- Abstract要約: SARS-CoV-2のシークエンシングデータの量は、どのウイルスよりも数桁大きい。
本稿では,効率的な下流解析が可能なビロメシークエンシングデータからコンパクトなベクトル生成であるEmphsignaturesを提案する。
- 参考スコア(独自算出の注目度): 0.7874708385247353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The amount of sequencing data for SARS-CoV-2 is several orders of magnitude
larger than any virus. This will continue to grow geometrically for SARS-CoV-2,
and other viruses, as many countries heavily finance genomic surveillance
efforts. Hence, we need methods for processing large amounts of sequence data
to allow for effective yet timely decision-making. Such data will come from
heterogeneous sources: aligned, unaligned, or even unassembled raw nucleotide
or amino acid sequencing reads pertaining to the whole genome or regions (e.g.,
spike) of interest. In this work, we propose \emph{ViralVectors}, a compact
feature vector generation from virome sequencing data that allows effective
downstream analysis. Such generation is based on \emph{minimizers}, a type of
lightweight "signature" of a sequence, used traditionally in assembly and read
mapping -- to our knowledge, the first use minimizers in this way. We validate
our approach on different types of sequencing data: (a) 2.5M SARS-CoV-2 spike
sequences (to show scalability); (b) 3K Coronaviridae spike sequences (to show
robustness to more genomic variability); and (c) 4K raw WGS reads sets taken
from nasal-swab PCR tests (to show the ability to process unassembled reads).
Our results show that ViralVectors outperforms current benchmarks in most
classification and clustering tasks.
- Abstract(参考訳): SARS-CoV-2のシークエンシングデータの量は、どのウイルスよりも数桁大きい。
これはSARS-CoV-2や他のウイルスのために幾何学的に成長し続け、多くの国がゲノム監視に多大な資金を拠出している。
したがって、効果的かつタイムリーな意思決定を可能にするために、大量のシーケンスデータを処理する方法が必要です。
このようなデータは、アライン化、アンアライン化、あるいは未組み立ての生ヌクレオチドまたはアミノ酸シークエンシングといった、関心のある全ゲノムまたは領域(例えばスパイク)に関連する異種ソースから得られる。
本研究では,効率的な下流解析が可能なビロメシークエンシングデータからコンパクトな特徴ベクトル生成法である \emph{ViralVectors} を提案する。
このような生成は、伝統的にアセンブリや読み取りマッピングで使用されるシーケンスの軽量な"シグナチャ"の一種である \emph{minimizers} に基づいています。
我々は、異なるタイプのシーケンシングデータに対するアプローチを検証する。
(a)2.5M SARS-CoV-2スパイクシーケンス(スケーラビリティを示すため)
(b)3kコロナウイルス科のスパイク配列(よりゲノム変異にロバスト性を示すため)、及び
(c)nasal-swab PCR検査から得られた4Kの生WGS読み出し(アンアセンブルされた読み出しの処理能力を示す)。
我々の結果は、ViralVectorsがほとんどの分類タスクやクラスタリングタスクで現在のベンチマークを上回っていることを示している。
関連論文リスト
- Virus2Vec: Viral Sequence Classification Using Machine Learning [48.40285316053593]
本稿では,バイラル・シークエンスのための特徴ベクトル表現であるVrus2Vecを提案する。
コロナウイルス科の実際のスパイク配列と狂犬病ウイルスのシークエンスデータに基づいてウイルス2Vecを実験的に評価し、宿主を予測した。
以上の結果から, Virus2Vecはベースラインおよび最先端手法の予測精度よりも優れていた。
論文 参考訳(メタデータ) (2023-04-24T08:17:16Z) - Evaluating COVID-19 Sequence Data Using Nearest-Neighbors Based Network
Model [0.0]
SARS-CoV-2(SARS-CoV-2)は、ヒトの新型コロナウイルス感染症の原因である。
異なる宿主に適応し、異なる系統に進化することができる。
主要なSARS-CoV-2系統はスパイクタンパク質で主に起こる突然変異によって特徴づけられることが知られている。
論文 参考訳(メタデータ) (2022-11-19T00:34:02Z) - Reads2Vec: Efficient Embedding of Raw High-Throughput Sequencing Reads
Data [2.362412515574206]
本稿では,アライメント不要な埋め込み手法であるReads2Vecを提案する。
シミュレーションデータを用いた実験により,提案手法は既存のアライメントフリーベースラインとは対照的に,より優れた分類結果とより優れたクラスタリング特性が得られることが示された。
論文 参考訳(メタデータ) (2022-11-15T16:19:23Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Robust Representation and Efficient Feature Selection Allows for
Effective Clustering of SARS-CoV-2 Variants [0.0]
SARS-CoV-2ウイルスは異なる変種を含み、それぞれ異なる変異を持つ。
SARS-CoV-2ゲノムの変異の多くは、ゲノム配列のスパイク領域で不均等に起こる。
本研究では,異なる既知の変異体の挙動を研究するために,スパイクタンパク質配列をクラスタ化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T21:18:52Z) - Classifying COVID-19 Spike Sequences from Geographic Location Using Deep
Learning [0.0]
我々はまず,$k$-merssを用いてSARS-CoV-2のスパイクタンパク質配列の数値表現を計算するアルゴリズムを提案する。
また、スパイク配列における異なるアミノ酸の重要性を、真のクラスラベルに対応する情報ゲインを計算することによって示す。
論文 参考訳(メタデータ) (2021-10-02T14:09:30Z) - Spike2Vec: An Efficient and Scalable Embedding Approach for COVID-19
Spike Sequences [0.0]
数百万のゲノム配列がGISAIDなどのプラットフォームで公開されている。
Spike2Vecは、各スパイクシーケンスに対して効率的でスケーラブルな特徴ベクトル表現である。
論文 参考訳(メタデータ) (2021-09-12T03:16:27Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - A k-mer Based Approach for SARS-CoV-2 Variant Identification [55.78588835407174]
アミノ酸の順序を保つことで,分類器の精度が向上することを示す。
また,アメリカ疾病予防管理センター(CDC)が報告した,変異の同定に重要な役割を担っているアミノ酸の重要性も示した。
論文 参考訳(メタデータ) (2021-08-07T15:08:15Z) - Searching Central Difference Convolutional Networks for Face
Anti-Spoofing [68.77468465774267]
顔認識システムにおいて、顔の反偽造(FAS)が重要な役割を担っている。
最先端のFASメソッドの多くは、スタック化された畳み込みと専門家が設計したネットワークに依存している。
ここでは、中央差分畳み込み(CDC)に基づくフレームレベルの新しいFAS手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T12:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。