論文の概要: Statistical Linear Models in Virus Genomic Alignment-free Classification: Application to Hepatitis C Viruses
- arxiv url: http://arxiv.org/abs/1910.05421v3
- Date: Tue, 28 May 2024 21:23:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 02:51:07.901577
- Title: Statistical Linear Models in Virus Genomic Alignment-free Classification: Application to Hepatitis C Viruses
- Title(参考訳): ウイルスゲノムアライメントフリー分類における統計的線形モデル:C型肝炎ウイルスへの応用
- Authors: Amine M. Remita, Abdoulaye Baniré Diallo,
- Abstract要約: 本研究は, 遺伝子タイピングおよび部分的および完全ゲノムのサブタイプにおける線形分類器の力について検討した。
C型肝炎ウイルス(HCV)に応用される。
全体として、いくつかの分類器は実験変数の正確な組み合わせのセットを与えられた上でうまく機能する。
- 参考スコア(独自算出の注目度): 2.900522306460408
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Viral sequence classification is an important task in pathogen detection, epidemiological surveys and evolutionary studies. Statistical learning methods are widely used to classify and identify viral sequences in samples from environments. These methods face several challenges associated with the nature and properties of viral genomes such as recombination, mutation rate and diversity. Also, new generations of sequencing technologies rise other difficulties by generating massive amounts of fragmented sequences. While linear classifiers are often used to classify viruses, there is a lack of exploration of the accuracy space of existing models in the context of alignment free approaches. In this study, we present an exhaustive assessment procedure exploring the power of linear classifiers in genotyping and subtyping partial and complete genomes. It is applied to the Hepatitis C viruses (HCV). Several variables are considered in this investigation such as classifier types (generative and discriminative) and their hyper-parameters (smoothing value and regularization penalty function), the classification task (genotyping and subtyping), the length of the tested sequences (partial and complete) and the length of k-mer words. Overall, several classifiers perform well given a set of precise combination of the experimental variables mentioned above. Finally, we provide the procedure and benchmark data to allow for more robust assessment of classification from virus genomes.
- Abstract(参考訳): ウイルス配列分類は病原体の検出、疫学調査、進化研究において重要な課題である。
統計的学習法は、環境からのサンプル中のウイルス配列の分類と同定に広く用いられている。
これらの手法は、組換え、突然変異率、多様性など、ウイルスゲノムの性質と性質に関連するいくつかの課題に直面している。
また、新しい世代のシークエンシング技術は、大量の断片化されたシーケンスを生成することで、他の困難を生じさせる。
線形分類器はウイルスの分類によく用いられるが、アライメントフリーアプローチの文脈では既存のモデルの精度空間の探索が欠如している。
本研究では, 遺伝子組換えおよび部分的, 完全ゲノムのサブタイプにおける線形分類器の能力について, 徹底的な評価手法を提案する。
C型肝炎ウイルス(HCV)に感染する。
本研究では,分類器型(生成的・識別的)とその超パラメータ(平滑化値と正規化ペナルティ関数),分類タスク(ジェノタイピングとサブタイピング),テストシーケンスの長さ(部分的・完全),k-mer語の長さなど,いくつかの変数が検討されている。
全体として、いくつかの分類器は、上記の実験変数の正確な組み合わせの集合が与えられたときによく機能する。
最後に、ウイルスゲノムの分類をより堅牢に評価するための手順とベンチマークデータを提供する。
関連論文リスト
- VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - PCD2Vec: A Poisson Correction Distance-Based Approach for Viral Host
Classification [0.966840768820136]
コロナウイルス(英: Coronavirus)は、コロナウイルス科に属する膜に侵入し、非分節の正鎖RNAウイルスである。
コロナウイルスゲノムにおいて、重要な構造領域はスパイク領域であり、宿主の細胞膜にウイルスを付着させる責任がある。
本研究では、異なるウイルス亜属および種からスパイクタンパク質配列を解析することにより、ウイルスの宿主特異性を予測する新しい方法を提案する。
論文 参考訳(メタデータ) (2023-04-13T03:02:22Z) - Machine Learning Methods for Cancer Classification Using Gene Expression
Data: A Review [77.34726150561087]
がんは心臓血管疾患の2番目の死因である。
遺伝子発現は癌の早期発見において基本的な役割を担っている。
本研究は,機械学習を用いた癌分類における遺伝子発現解析の最近の進歩を概説する。
論文 参考訳(メタデータ) (2023-01-28T15:03:03Z) - Optirank: classification for RNA-Seq data with optimal ranking reference
genes [0.0]
そこで我々は,ロジスティック回帰モデルであるOptiicrankを提案し,モデルと遺伝子のパラメータを同時に学習し,ランキングの基準セットとして使用する。
また、列車データと試験データの間に異なる種類の分散シフトを示す実際の分類タスクについても検討する。
論文 参考訳(メタデータ) (2023-01-11T10:49:06Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - Effective and scalable clustering of SARS-CoV-2 sequences [0.41998444721319206]
SARS-CoV-2は進化過程に従って変異し続けている。
GISAIDなどの公開データベースで現在利用可能なSARS-CoV-2のシーケンス数は数百万である。
本稿では,現在のSARS-CoV-2変種をクラスタリングシーケンスに基づいて同定する手法を提案する。
論文 参考訳(メタデータ) (2021-08-18T13:32:43Z) - A k-mer Based Approach for SARS-CoV-2 Variant Identification [55.78588835407174]
アミノ酸の順序を保つことで,分類器の精度が向上することを示す。
また,アメリカ疾病予防管理センター(CDC)が報告した,変異の同定に重要な役割を担っているアミノ酸の重要性も示した。
論文 参考訳(メタデータ) (2021-08-07T15:08:15Z) - Mycorrhiza: Genotype Assignment usingPhylogenetic Networks [2.286041284499166]
遺伝子型代入問題に対する機械学習手法であるMycorrhizaを紹介する。
提案アルゴリズムは系統ネットワークを用いて,標本間の進化的関係を符号化する特徴を設計する。
Mycorrhizaは、大きな平均固定指数(FST)を持つデータセットやハーディ・ワインバーグ平衡からの偏差で特に顕著な利得を得る。
論文 参考訳(メタデータ) (2020-10-14T02:36:27Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。