論文の概要: Murmur2Vec: A Hashing Based Solution For Embedding Generation Of COVID-19 Spike Sequences
- arxiv url: http://arxiv.org/abs/2512.10147v1
- Date: Wed, 10 Dec 2025 23:03:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.105256
- Title: Murmur2Vec: A Hashing Based Solution For Embedding Generation Of COVID-19 Spike Sequences
- Title(参考訳): Murmur2Vec:COVID-19のスパイクシーケンスの生成を埋め込むハッシュベースのソリューション
- Authors: Sarwan Ali, Taslim Murad,
- Abstract要約: SARS-CoV-2による新型コロナウイルス感染症(COVID-19)の早期発見と特徴付けは、効果的な臨床反応と公衆衛生計画に不可欠である。
既存のアプローチは顕著な制限に直面している。系統樹に基づく手法は計算集約的であり、今日の数百万のシーケンスデータセットに効率よくスケールしない。
本研究では、スパイクタンパク質領域に関連する最も一般的なSARS-CoV-2系統に着目し、ハッシュを利用してスパイク配列のコンパクトで低次元表現を生成するスケーラブルな埋め込み手法を提案する。
- 参考スコア(独自算出の注目度): 4.970277730082774
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Early detection and characterization of coronavirus disease (COVID-19), caused by SARS-CoV-2, remain critical for effective clinical response and public-health planning. The global availability of large-scale viral sequence data presents significant opportunities for computational analysis; however, existing approaches face notable limitations. Phylogenetic tree-based methods are computationally intensive and do not scale efficiently to today's multi-million-sequence datasets. Similarly, current embedding-based techniques often rely on aligned sequences or exhibit suboptimal predictive performance and high runtime costs, creating barriers to practical large-scale analysis. In this study, we focus on the most prevalent SARS-CoV-2 lineages associated with the spike protein region and introduce a scalable embedding method that leverages hashing to generate compact, low-dimensional representations of spike sequences. These embeddings are subsequently used to train a variety of machine learning models for supervised lineage classification. We conduct an extensive evaluation comparing our approach with multiple baseline and state-of-the-art biological sequence embedding methods across diverse metrics. Our results demonstrate that the proposed embeddings offer substantial improvements in efficiency, achieving up to 86.4\% classification accuracy while reducing embedding generation time by as much as 99.81\%. This highlights the method's potential as a fast, effective, and scalable solution for large-scale viral sequence analysis.
- Abstract(参考訳): SARS-CoV-2による新型コロナウイルス感染症(COVID-19)の早期発見と特徴付けは、効果的な臨床反応と公衆衛生計画に不可欠である。
大規模ウイルス配列データのグローバル利用は、計算分析の重要な機会となるが、既存のアプローチには顕著な制限がある。
系統樹に基づく手法は計算集約的であり、今日の数百万列データセットに効率よくスケールしない。
同様に、現在の埋め込みベースの技術は、しばしば整列配列に依存するか、最適以下の予測性能と高い実行コストを示し、実用的な大規模分析の障壁を生じさせる。
本研究では、スパイクタンパク質領域に関連する最も一般的なSARS-CoV-2系統に着目し、ハッシュを利用してスパイク配列のコンパクトで低次元表現を生成するスケーラブルな埋め込み手法を提案する。
これらの埋め込みはその後、教師付き系統分類のための様々な機械学習モデルを訓練するために使用される。
多様な指標にまたがって,アプローチを複数のベースラインと最先端の生物学的シークエンシング手法と比較し,広範囲な評価を行う。
提案手法は, 最大86.4 %の分類精度を達成し, 埋め込み生成時間を最大99.81 %まで短縮した。
これは、大規模ウイルス配列解析のための高速で効果的でスケーラブルなソリューションとして、この方法の可能性を強調している。
関連論文リスト
- Neuromorphic Spiking Neural Network Based Classification of COVID-19 Spike Sequences [4.497217246897902]
本稿では,SARS-CoV-2データの効率的な解析を行うニューラルネットワークベース(NN)機構を提案する。
本稿では、まずスパイクタンパク質配列を固定長の数値表現に変換し、次にニューロモルフィックスパイキングニューラルネットワークを用いてそれらの配列を分類するパイプラインを提案する。
論文 参考訳(メタデータ) (2024-12-19T10:26:31Z) - Large-Scale Targeted Cause Discovery via Learning from Simulated Data [66.51307552703685]
本稿では,観測結果から対象変数の因果変数を推定する機械学習手法を提案する。
我々は、シミュレートされたデータに基づいて教師あり学習を用いてニューラルネットワークを訓練し、因果関係を推定する。
大規模遺伝子制御ネットワークにおける因果関係の同定に優れた性能を示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-08-29T02:21:11Z) - Optimized Learning for X-Ray Image Classification for Multi-Class Disease Diagnoses with Accelerated Computing Strategies [0.0]
偽陽性は、非存在条件を誤って特定するリスクを導入し、誤診や患者のケア品質の低下につながる。
本研究では,X線画像のマルチクラス診断に適した事前学習型ResNetモデルを提案する。
通常のトレーニングと推論高速化トレーニングの間には,実行時の大幅な改善が示されている。
論文 参考訳(メタデータ) (2024-07-01T18:31:30Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Reads2Vec: Efficient Embedding of Raw High-Throughput Sequencing Reads
Data [2.362412515574206]
本稿では,アライメント不要な埋め込み手法であるReads2Vecを提案する。
シミュレーションデータを用いた実験により,提案手法は既存のアライメントフリーベースラインとは対照的に,より優れた分類結果とより優れたクラスタリング特性が得られることが示された。
論文 参考訳(メタデータ) (2022-11-15T16:19:23Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Distributed Dynamic Safe Screening Algorithms for Sparse Regularization [73.85961005970222]
本稿では,分散動的安全スクリーニング(DDSS)手法を提案し,共有メモリアーキテクチャと分散メモリアーキテクチャにそれぞれ適用する。
提案手法は, 線形収束率を低次複雑度で達成し, 有限個の繰り返しにおいてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。
論文 参考訳(メタデータ) (2022-04-23T02:45:55Z) - Spike2Vec: An Efficient and Scalable Embedding Approach for COVID-19
Spike Sequences [0.0]
数百万のゲノム配列がGISAIDなどのプラットフォームで公開されている。
Spike2Vecは、各スパイクシーケンスに対して効率的でスケーラブルな特徴ベクトル表現である。
論文 参考訳(メタデータ) (2021-09-12T03:16:27Z) - STELAR: Spatio-temporal Tensor Factorization with Latent Epidemiological
Regularization [76.57716281104938]
我々は,多くの地域の流行傾向を同時に予測するテンソル法を開発した。
stelarは離散時間差分方程式のシステムを通じて潜在時間正規化を組み込むことで長期予測を可能にする。
我々は、カウンティレベルと州レベルのCOVID-19データの両方を用いて実験を行い、このモデルが流行の興味深い潜伏パターンを識別できることを示します。
論文 参考訳(メタデータ) (2020-12-08T21:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。