論文の概要: Evaluating COVID-19 Sequence Data Using Nearest-Neighbors Based Network
Model
- arxiv url: http://arxiv.org/abs/2211.10546v2
- Date: Tue, 22 Nov 2022 07:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 16:26:00.529344
- Title: Evaluating COVID-19 Sequence Data Using Nearest-Neighbors Based Network
Model
- Title(参考訳): 周辺地域のネットワークモデルを用いたCOVID-19シーケンスデータの評価
- Authors: Sarwan Ali
- Abstract要約: SARS-CoV-2(SARS-CoV-2)は、ヒトの新型コロナウイルス感染症の原因である。
異なる宿主に適応し、異なる系統に進化することができる。
主要なSARS-CoV-2系統はスパイクタンパク質で主に起こる突然変異によって特徴づけられることが知られている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The SARS-CoV-2 coronavirus is the cause of the COVID-19 disease in humans.
Like many coronaviruses, it can adapt to different hosts and evolve into
different lineages. It is well-known that the major SARS-CoV-2 lineages are
characterized by mutations that happen predominantly in the spike protein.
Understanding the spike protein structure and how it can be perturbed is vital
for understanding and determining if a lineage is of concern. These are crucial
to identifying and controlling current outbreaks and preventing future
pandemics. Machine learning (ML) methods are a viable solution to this effort,
given the volume of available sequencing data, much of which is unaligned or
even unassembled. However, such ML methods require fixed-length numerical
feature vectors in Euclidean space to be applicable. Similarly, euclidean space
is not considered the best choice when working with the classification and
clustering tasks for biological sequences. For this purpose, we design a method
that converts the protein (spike) sequences into the sequence similarity
network (SSN). We can then use SSN as an input for the classical algorithms
from the graph mining domain for the typical tasks such as classification and
clustering to understand the data. We show that the proposed alignment-free
method is able to outperform the current SOTA method in terms of clustering
results. Similarly, we are able to achieve higher classification accuracy using
well-known Node2Vec-based embedding compared to other baseline embedding
approaches.
- Abstract(参考訳): SARS-CoV-2は、ヒトの新型コロナウイルス感染症の原因である。
多くの新型コロナウイルスと同様、異なる宿主に適応し、異なる系統に進化することができる。
主要なSARS-CoV-2系統はスパイクタンパク質で主に起こる突然変異によって特徴づけられることが知られている。
スパイクタンパク質の構造を理解し、どのように摂動するかを理解することは、系統が懸念されているかどうかを理解し、決定するのに不可欠である。
これらは、現在の流行を特定し、コントロールし、将来のパンデミックを防ぐために重要である。
機械学習(ML)メソッドは、利用可能なシーケンシングデータの量を考えると、この取り組みの実行可能なソリューションである。
しかし、そのようなML法はユークリッド空間における固定長の数値特徴ベクトルを適用する必要がある。
同様に、ユークリッド空間は、生物配列の分類とクラスタリングのタスクに取り組む際に最適な選択ではないと考えられている。
本研究では,タンパク質(スパイク)配列を配列類似性ネットワーク(SSN)に変換する手法を設計する。
次に、分類やクラスタリングといった典型的なタスクに対して、グラフマイニング領域からの古典的なアルゴリズムの入力としてSSNを使うことができる。
提案手法はクラスタリングの結果から,現在のSOTA法より優れていることを示す。
同様に、よく知られたNode2Vecベースの埋め込みを使用して、他のベースライン埋め込みアプローチよりも高い分類精度を達成することができる。
関連論文リスト
- A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Linear normalised hash function for clustering gene sequences and
identifying reference sequences from multiple sequence alignments [4.34040512215583]
線形マッピングハッシュ関数と多重シーケンスアライメント(MSA)を組み合わせた新しい手法を開発した。
本手法は,ノカルディア属の16S rRNA遺伝子配列と高度に変異した(エンテロウイルス71のVP1ゲノム領域)配列を用いて評価した。
論文 参考訳(メタデータ) (2023-11-29T11:51:05Z) - ViralVectors: Compact and Scalable Alignment-free Virome Feature
Generation [0.7874708385247353]
SARS-CoV-2のシークエンシングデータの量は、どのウイルスよりも数桁大きい。
本稿では,効率的な下流解析が可能なビロメシークエンシングデータからコンパクトなベクトル生成であるEmphsignaturesを提案する。
論文 参考訳(メタデータ) (2023-04-06T06:46:17Z) - DynGFN: Towards Bayesian Inference of Gene Regulatory Networks with
GFlowNets [81.75973217676986]
遺伝子調節ネットワーク(GRN)は、遺伝子発現と細胞機能を制御する遺伝子とその産物間の相互作用を記述する。
既存の方法は、チャレンジ(1)、ダイナミックスから循環構造を識別すること、あるいはチャレンジ(2)、DAGよりも複雑なベイズ後部を学習することに焦点を当てるが、両方ではない。
本稿では、RNAベロシティ技術を用いて遺伝子発現の「速度」を推定できるという事実を活用し、両方の課題に対処するアプローチを開発する。
論文 参考訳(メタデータ) (2023-02-08T16:36:40Z) - Reads2Vec: Efficient Embedding of Raw High-Throughput Sequencing Reads
Data [2.362412515574206]
本稿では,アライメント不要な埋め込み手法であるReads2Vecを提案する。
シミュレーションデータを用いた実験により,提案手法は既存のアライメントフリーベースラインとは対照的に,より優れた分類結果とより優れたクラスタリング特性が得られることが示された。
論文 参考訳(メタデータ) (2022-11-15T16:19:23Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Spike2Vec: An Efficient and Scalable Embedding Approach for COVID-19
Spike Sequences [0.0]
数百万のゲノム配列がGISAIDなどのプラットフォームで公開されている。
Spike2Vecは、各スパイクシーケンスに対して効率的でスケーラブルな特徴ベクトル表現である。
論文 参考訳(メタデータ) (2021-09-12T03:16:27Z) - An Uncertainty-Driven GCN Refinement Strategy for Organ Segmentation [53.425900196763756]
本研究では,不確実性解析とグラフ畳み込みネットワークに基づくセグメンテーション改善手法を提案する。
半教師付きグラフ学習問題を定式化するために、特定の入力ボリュームにおける畳み込みネットワークの不確実性レベルを用いる。
本手法は膵臓で1%,脾臓で2%向上し,最先端のCRF改善法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-06T18:55:07Z) - Towards Discriminability and Diversity: Batch Nuclear-norm Maximization
under Label Insufficient Situations [154.51144248210338]
Batch Nuclear-norm Maximization (BNM) は、学習シナリオのラベルが不十分な場合の学習を促進するために提案されている。
BNMはライバルより優れており、既存のよく知られた手法でうまく機能する。
論文 参考訳(メタデータ) (2020-03-27T05:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。