論文の概要: PathoLM: Identifying pathogenicity from the DNA sequence through the Genome Foundation Model
- arxiv url: http://arxiv.org/abs/2406.13133v1
- Date: Wed, 19 Jun 2024 00:53:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 23:38:44.336867
- Title: PathoLM: Identifying pathogenicity from the DNA sequence through the Genome Foundation Model
- Title(参考訳): PathoLM:ゲノム基盤モデルによるDNA配列からの病原性同定
- Authors: Sajib Acharjee Dip, Uddip Acharjee Shuvo, Tran Chau, Haoqiu Song, Petra Choi, Xuan Wang, Liqing Zhang,
- Abstract要約: PathoLMは、細菌およびウイルス配列の病原性の同定に最適化された最先端の病原体言語モデルである。
ESKAPEE病原体を含む約30種のウイルスと細菌からなる包括的データセットを開発した。
比較評価では、PathoLMはDciPathoのような既存のモデルよりも劇的に優れており、堅牢なゼロショットと少数ショット機能を示している。
- 参考スコア(独自算出の注目度): 9.285895422810704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pathogen identification is pivotal in diagnosing, treating, and preventing diseases, crucial for controlling infections and safeguarding public health. Traditional alignment-based methods, though widely used, are computationally intense and reliant on extensive reference databases, often failing to detect novel pathogens due to their low sensitivity and specificity. Similarly, conventional machine learning techniques, while promising, require large annotated datasets and extensive feature engineering and are prone to overfitting. Addressing these challenges, we introduce PathoLM, a cutting-edge pathogen language model optimized for the identification of pathogenicity in bacterial and viral sequences. Leveraging the strengths of pre-trained DNA models such as the Nucleotide Transformer, PathoLM requires minimal data for fine-tuning, thereby enhancing pathogen detection capabilities. It effectively captures a broader genomic context, significantly improving the identification of novel and divergent pathogens. We developed a comprehensive data set comprising approximately 30 species of viruses and bacteria, including ESKAPEE pathogens, seven notably virulent bacterial strains resistant to antibiotics. Additionally, we curated a species classification dataset centered specifically on the ESKAPEE group. In comparative assessments, PathoLM dramatically outperforms existing models like DciPatho, demonstrating robust zero-shot and few-shot capabilities. Furthermore, we expanded PathoLM-Sp for ESKAPEE species classification, where it showed superior performance compared to other advanced deep learning methods, despite the complexities of the task.
- Abstract(参考訳): 病原体同定は、感染症の診断、治療、予防、感染症の予防、公衆衛生の保護において重要である。
従来のアライメントベースの手法は広く使われているが、計算的に強く、広範囲の参照データベースに依存しており、しばしばその感度と特異性のために新しい病原体を検出することができない。
同様に、従来の機械学習技術は有望ではあるが、大きな注釈付きデータセットと広範な機能エンジニアリングを必要とし、過度に適合する傾向がある。
これらの課題に対処するために,細菌およびウイルス配列の病原性の同定に最適化された最先端の病原性言語モデルPathoLMを紹介した。
Nucleotide Transformerのような事前訓練されたDNAモデルの強度を活用して、PathoLMは微調整のために最小限のデータを必要とし、病原体検出能力を向上する。
より広いゲノムコンテキストを効果的に捉え、新規な病原体の同定を著しく改善する。
ESKAPEE病原菌を含む約30種のウイルス・細菌からなる包括的データセットを開発した。
さらに,ESKAPEE群を中心に種分類データセットを作成した。
比較評価では、PathoLMはDciPathoのような既存のモデルよりも劇的に優れており、堅牢なゼロショットと少数ショット機能を示している。
さらに,esKAPEE種分類のためのPathoLM-Spを拡張し,タスクの複雑さにもかかわらず,他の高度な深層学習手法と比較して優れた性能を示した。
関連論文リスト
- Deep-Ace: LSTM-based Prokaryotic Lysine Acetylation Site Predictor [10.293190253043049]
リジン残基 (K-Ace) のアセチレーションは、原核生物と真核生物の両方で起こる翻訳後修飾である。
本稿では,Long-Short-Term-Memory(LSTM)ネットワークを用いたディープラーニングベースのフレームワークであるDeep-Aceを提案する。
提案手法は, 8種の細菌に対して, 0.80, 0.79, 0.71, 0.75, 0.80, 0.83, 0.756, 0.82 の精度で既存の技術モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-10-13T19:10:57Z) - BeeTLe: A Framework for Linear B-Cell Epitope Prediction and
Classification [0.43512163406551996]
本稿では, 線形B細胞予測と抗体型特異的分類のための, 深層学習に基づく新しいフレームワークを提案する。
そこで本研究では, モデルが抗体の表現を学習するのを助けるために, 固有分解に基づくアミノ酸符号化法を提案する。
最大の公開データベースからキュレートしたデータに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-09-05T09:18:29Z) - Scalable Pathogen Detection from Next Generation DNA Sequencing with
Deep Learning [3.8175773487333857]
本稿ではトランスフォーマーネットワークをバックボーンとして利用するディープラーニングベースのソリューションMG2Vecを提案する。
提案手法は,未治療の実際の臨床サンプルから病原体を検出するのに有効であることを示す。
本稿では,メタジェノムをベースとした深層学習による疾患診断のための新しい表現学習フレームワークの包括的評価を行う。
論文 参考訳(メタデータ) (2022-11-30T00:13:59Z) - Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文 参考訳(メタデータ) (2022-10-05T20:44:55Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Deep neural networks approach to microbial colony detection -- a
comparative analysis [52.77024349608834]
本稿では,AGARデータセットを用いた3つの深層学習手法の性能について検討する。
得られた結果は将来の実験のベンチマークとして機能するかもしれない。
論文 参考訳(メタデータ) (2021-08-23T12:06:00Z) - A k-mer Based Approach for SARS-CoV-2 Variant Identification [55.78588835407174]
アミノ酸の順序を保つことで,分類器の精度が向上することを示す。
また,アメリカ疾病予防管理センター(CDC)が報告した,変異の同定に重要な役割を担っているアミノ酸の重要性も示した。
論文 参考訳(メタデータ) (2021-08-07T15:08:15Z) - A Cross-Level Information Transmission Network for Predicting Phenotype
from New Genotype: Application to Cancer Precision Medicine [37.442717660492384]
本稿では,CLEIT(Cross-Level Information Transmission Network)フレームワークを提案する。
ドメイン適応にインスパイアされたCLEITは、まずハイレベルドメインの潜在表現を学び、その後、接地木埋め込みとして利用する。
体細胞突然変異による抗がん剤感受性の予測におけるCLEITの有効性と性能の向上を示す。
論文 参考訳(メタデータ) (2020-10-09T22:01:00Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Genome Sequence Classification for Animal Diagnostics with Graph
Representations and Deep Neural Networks [4.339839287869652]
ウシ呼吸器疾患複合体(英: Bovine Respiratory Disease Complex, BRDC)は、ウシに細菌やウイルスを含む複数の病因を持つ複雑な呼吸器疾患である。
現在の動物疾患診断は、細菌培養、血清分析、PCR(PCR)検査などの従来の検査に基づいている。
ネットワークベースの機械学習アプローチは、最大89.7%の精度で病原体シグネチャを検出することができる。
論文 参考訳(メタデータ) (2020-07-24T22:30:18Z) - Accelerating Antimicrobial Discovery with Controllable Deep Generative
Models and Molecular Dynamics [109.70543391923344]
CLaSS(Controlled Latent attribute Space Smpling)は、分子の属性制御のための効率的な計算手法である。
深層学習分類器と原子論シミュレーションから得られた新しい特徴を併用して, 生成分子を付加的なキー属性としてスクリーニングする。
提案手法は, 強い広帯域能を有する非毒性抗菌性ペプチド(AMP)を設計するためのものである。
論文 参考訳(メタデータ) (2020-05-22T15:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。