論文の概要: Efficient Classification of SARS-CoV-2 Spike Sequences Using Federated
Learning
- arxiv url: http://arxiv.org/abs/2302.08688v1
- Date: Fri, 17 Feb 2023 04:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 15:47:56.679836
- Title: Efficient Classification of SARS-CoV-2 Spike Sequences Using Federated
Learning
- Title(参考訳): フェデレートラーニングを用いたSARS-CoV-2スパイクシーケンスの効率的な分類
- Authors: Prakash Chourasia, Taslim Murad, Zahra Tayebi, Sarwan Ali, Imdad Ullah
Khan and Murray Patterson
- Abstract要約: データ共有なしでSARS-CoV-2スパイクシーケンスを分散解析する。
我々は、新型コロナウイルスの変種識別タスクにおいて、全体的な精度を93%の精度で達成した。
- 参考スコア(独自算出の注目度): 0.9297355862757838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a federated learning (FL) approach to train an AI model
for SARS-Cov-2 coronavirus variant identification. We analyze the SARS-CoV-2
spike sequences in a distributed way, without data sharing, to detect different
variants of the rapidly mutating coronavirus. A vast amount of sequencing data
of SARS-CoV-2 is available due to various genomic monitoring initiatives by
several nations. However, privacy concerns involving patient health information
and national public health conditions could hinder openly sharing this data. In
this work, we propose a lightweight FL paradigm to cooperatively analyze the
spike protein sequences of SARS-CoV-2 privately, using the locally stored data
to train a prediction model from remote nodes. Our method maintains the
confidentiality of local data (that could be stored in different locations) yet
allows us to reliably detect and identify different known and unknown variants
of the novel coronavirus SARS-CoV-2. We compare the performance of our approach
on spike sequence data with the recently proposed state-of-the-art methods for
classification from spike sequences. Using the proposed approach, we achieve an
overall accuracy of $93\%$ on the coronavirus variant identification task. To
the best of our knowledge, this is the first work in the federated learning
paradigm for biological sequence analysis. Since the proposed model is
distributed in nature, it could scale on ``Big Data'' easily. We plan to use
this proof-of-concept to implement a privacy-preserving pandemic response
strategy.
- Abstract(参考訳): 本稿では,SARS-Cov-2ウイルスの変異同定のためのAIモデルを訓練するためのFLアプローチを提案する。
我々は,SARS-CoV-2スパイク配列をデータ共有なしで分散的に解析し,急速に変化する新型コロナウイルスの異なる変種を検出する。
SARS-CoV-2の膨大なシークエンシングデータは、いくつかの国による様々なゲノムモニタリングイニシアチブのために利用可能である。
しかし、患者の健康情報と国民の健康状態に関わるプライバシーの懸念は、このデータをオープンに共有することを妨げる可能性がある。
本研究では,sars-cov-2のスパイクタンパク質配列をローカルに保存したデータを用いて,遠隔ノードからの予測モデルを協調的に解析する軽量flパラダイムを提案する。
本手法は, 地域データの機密性(異なる場所に保存できる)を維持しながら, 新型コロナウイルスSARS-CoV-2の様々な変種を確実に検出し, 同定することができる。
スパイクシーケンスデータに対する手法の性能を,最近提案されているスパイクシーケンスから分類する最先端手法と比較した。
提案手法を用いて, 新型コロナウイルスの変種識別タスクにおいて, 総合的精度93%の精度を達成する。
我々の知る限りでは、これは生物配列解析のための連合学習パラダイムにおける最初の研究である。
提案するモデルは本質的に分散しているので, ``Big Data' に簡単にスケールできる。
我々はこの概念実証を,プライバシ保護型パンデミック対応戦略の実施に活用する予定である。
関連論文リスト
- Improved Anomaly Detection through Conditional Latent Space VAE Ensembles [49.1574468325115]
条件付きラテント空間変分オートエンコーダ(CL-VAE)は、既知の不整形クラスと未知の不整形クラスを持つデータに対する異常検出のための前処理を改善した。
モデルでは異常検出の精度が向上し、MNISTデータセットで97.4%のAUCが達成された。
さらに、CL-VAEは、アンサンブルの利点、より解釈可能な潜在空間、モデルサイズに制限のある複雑なデータでパターンを学習する能力の増大を示す。
論文 参考訳(メタデータ) (2024-10-16T07:48:53Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - Exploratory Analysis of Federated Learning Methods with Differential
Privacy on MIMIC-III [0.7349727826230862]
フェデレートされた学習方法は、プライバシに敏感なデータセット上で機械学習モデルをトレーニングする可能性を提供する。
オープンソースMIMIC-IIIデータセット上でのトレーニングモデルにおいて,異なるフェデレーションおよび差分プライバシー手法が与える影響の評価を行う。
論文 参考訳(メタデータ) (2023-02-08T17:27:44Z) - Learning Classifiers of Prototypes and Reciprocal Points for Universal
Domain Adaptation [79.62038105814658]
Universal Domainは、ドメインシフトとカテゴリシフトという2つのシフトを処理して、データセット間で知識を転送することを目的としている。
主な課題は、既知のクラス知識の分布をソースからターゲットに適応させながら、未知のターゲットサンプルを正しく識別することである。
既存のほとんどの手法は、まずターゲットが適応した既知の知識を訓練し、次に未知のターゲットサンプルを識別するために単一のしきい値に依存することでこの問題に対処する。
論文 参考訳(メタデータ) (2022-12-16T09:01:57Z) - Evaluating COVID-19 Sequence Data Using Nearest-Neighbors Based Network
Model [0.0]
SARS-CoV-2(SARS-CoV-2)は、ヒトの新型コロナウイルス感染症の原因である。
異なる宿主に適応し、異なる系統に進化することができる。
主要なSARS-CoV-2系統はスパイクタンパク質で主に起こる突然変異によって特徴づけられることが知られている。
論文 参考訳(メタデータ) (2022-11-19T00:34:02Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Robust Representation and Efficient Feature Selection Allows for
Effective Clustering of SARS-CoV-2 Variants [0.0]
SARS-CoV-2ウイルスは異なる変種を含み、それぞれ異なる変異を持つ。
SARS-CoV-2ゲノムの変異の多くは、ゲノム配列のスパイク領域で不均等に起こる。
本研究では,異なる既知の変異体の挙動を研究するために,スパイクタンパク質配列をクラスタ化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T21:18:52Z) - Effective and scalable clustering of SARS-CoV-2 sequences [0.41998444721319206]
SARS-CoV-2は進化過程に従って変異し続けている。
GISAIDなどの公開データベースで現在利用可能なSARS-CoV-2のシーケンス数は数百万である。
本稿では,現在のSARS-CoV-2変種をクラスタリングシーケンスに基づいて同定する手法を提案する。
論文 参考訳(メタデータ) (2021-08-18T13:32:43Z) - A k-mer Based Approach for SARS-CoV-2 Variant Identification [55.78588835407174]
アミノ酸の順序を保つことで,分類器の精度が向上することを示す。
また,アメリカ疾病予防管理センター(CDC)が報告した,変異の同定に重要な役割を担っているアミノ酸の重要性も示した。
論文 参考訳(メタデータ) (2021-08-07T15:08:15Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。