論文の概要: Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification
- arxiv url: http://arxiv.org/abs/2207.08898v1
- Date: Mon, 18 Jul 2022 19:16:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 14:32:44.717977
- Title: Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification
- Title(参考訳): Covid-19ゲノム配列分類におけるロバストネスのベンチマーク
- Authors: Sarwan Ali, Bikram Sahoo, Alexander Zelikovskiy, Pin-Yu Chen, Murray
Patterson
- Abstract要約: 我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
- 参考スコア(独自算出の注目度): 109.81283748940696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid spread of the COVID-19 pandemic has resulted in an unprecedented
amount of sequence data of the SARS-CoV-2 genome -- millions of sequences and
counting. This amount of data, while being orders of magnitude beyond the
capacity of traditional approaches to understanding the diversity, dynamics,
and evolution of viruses is nonetheless a rich resource for machine learning
(ML) approaches as alternatives for extracting such important information from
these data. It is of hence utmost importance to design a framework for testing
and benchmarking the robustness of these ML models.
This paper makes the first effort (to our knowledge) to benchmark the
robustness of ML models by simulating biological sequences with errors. In this
paper, we introduce several ways to perturb SARS-CoV-2 genome sequences to
mimic the error profiles of common sequencing platforms such as Illumina and
PacBio. We show from experiments on a wide array of ML models that some
simulation-based approaches are more robust (and accurate) than others for
specific embedding methods to certain adversarial attacks to the input
sequences. Our benchmarking framework may assist researchers in properly
assessing different ML models and help them understand the behavior of the
SARS-CoV-2 virus or avoid possible future pandemics.
- Abstract(参考訳): 新型コロナウイルスのパンデミックが急速に拡大し、SARS-CoV-2ゲノムの配列データ(数百万の配列と数)が前例のない量になった。
このようなデータの量は、ウイルスの多様性、ダイナミクス、進化を理解するための従来のアプローチの能力を超えるものの、これらのデータからそのような重要な情報を抽出する代替手段として機械学習(ML)アプローチの豊富なリソースである。
したがって、これらのMLモデルの堅牢性をテストするためのフレームワークを設計することが最も重要である。
本稿では,生物配列を誤りでシミュレートすることで,MLモデルのロバスト性を評価するための最初の試みを行う。
本稿では、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他のモデルよりも堅牢(かつ正確)であることを示す。
我々のベンチマークフレームワークは、研究者がさまざまなMLモデルを適切に評価し、SARS-CoV-2ウイルスの挙動を理解するのに役立つかもしれない。
関連論文リスト
- Predictive Analytics of Varieties of Potatoes [2.336821989135698]
本研究では, 育種試験におけるサツマイモクローンの選択プロセスの向上を目的とした, 機械学習アルゴリズムの適用について検討する。
本研究は, 高収率, 耐病性, 耐気候性ポテト品種を効率的に同定することの課題に対処する。
論文 参考訳(メタデータ) (2024-04-04T00:49:05Z) - AI enhanced data assimilation and uncertainty quantification applied to
Geological Carbon Storage [0.0]
本稿では,Surrogate-based hybrid ESMDA (SH-ESMDA)を導入し,Surrogate-based hybrid ESMDA (SH-ESMDA)について述べる。
また,SurrogateをベースとしたHybrid RML(SH-RML)も導入する。
以上の結果より,SH-RMLは従来のESMDAと比較して不確実性が高いことが示唆された。
論文 参考訳(メタデータ) (2024-02-09T00:24:46Z) - Building Robust Machine Learning Models for Small Chemical Science Data:
The Case of Shear Viscosity [3.4761212729163313]
我々はLennard-Jones (LJ)流体のせん断粘度を予測するために、いくつかの機械学習モデルを訓練する。
具体的には,モデル選択,性能評価,不確実性定量化に関する課題について検討した。
論文 参考訳(メタデータ) (2022-08-23T07:33:14Z) - Modelling COVID-19 Pandemic Dynamics Using Transparent, Interpretable,
Parsimonious and Simulatable (TIPS) Machine Learning Models: A Case Study
from Systems Thinking and System Identification Perspectives [1.4061680807550718]
本研究では, システム工学とシステム同定手法を用いて, 透過的, 解釈可能, 擬似的, シミュラブルな動的機械学習モデルを構築することを提案する。
TIPSモデルは、よく知られたNARMAX(Nonlinear AutoRegressive moving Average with eXogenous inputs)モデルに基づいて開発されている。
論文 参考訳(メタデータ) (2021-11-01T08:42:37Z) - Non-stationary Gaussian process discriminant analysis with variable
selection for high-dimensional functional data [0.0]
高次元分類と特徴選択は、最近のデータ取得技術の進歩とともに至るところで行われている。
これらの構造は、主に変数の選択と分類を別々に行う2段階のアプローチに依存する一般的な手法に、さらなる課題をもたらす。
本稿では、これらのステップを統一されたフレームワークで組み合わせた、新しいガウス過程判別分析(GPDA)を提案する。
論文 参考訳(メタデータ) (2021-09-29T03:35:49Z) - A k-mer Based Approach for SARS-CoV-2 Variant Identification [55.78588835407174]
アミノ酸の順序を保つことで,分類器の精度が向上することを示す。
また,アメリカ疾病予防管理センター(CDC)が報告した,変異の同定に重要な役割を担っているアミノ酸の重要性も示した。
論文 参考訳(メタデータ) (2021-08-07T15:08:15Z) - Learning Gaussian Mixtures with Generalised Linear Models: Precise
Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。
実験的リスク最小化による高次元推定器の精度を実証する。
合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文 参考訳(メタデータ) (2021-06-07T16:53:56Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Two-step penalised logistic regression for multi-omic data with an
application to cardiometabolic syndrome [62.997667081978825]
我々は,各層で変数選択を行うマルチオミックロジスティック回帰に対する2段階のアプローチを実装した。
私たちのアプローチは、可能な限り多くの関連する予測子を選択することを目標とすべきです。
提案手法により,分子レベルでの心筋メタボリックシンドロームの特徴を同定することができる。
論文 参考訳(メタデータ) (2020-08-01T10:36:27Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。