論文の概要: Fusing Sequence Motifs and Pan-Genomic Features: Antimicrobial Resistance Prediction using an Explainable Lightweight 1D CNN-XGBoost Ensemble
- arxiv url: http://arxiv.org/abs/2509.23552v1
- Date: Sun, 28 Sep 2025 01:19:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.286184
- Title: Fusing Sequence Motifs and Pan-Genomic Features: Antimicrobial Resistance Prediction using an Explainable Lightweight 1D CNN-XGBoost Ensemble
- Title(参考訳): Fusing Sequence Motifs and Pan-Genomic Features: Antimicrobial resistance Prediction using a Explainable Lightweight 1D CNN-XGBoost Ensemble
- Authors: Md. Saiful Bari Siddiqui, Nowshin Tarannum,
- Abstract要約: 抗微生物抵抗性(AMR)は、急速に拡大する世界的な健康危機である。
標準的な機械学習モデルは、ゲノムを秩序のない機能のコレクションとして扱う。
本稿では,シーケンスベースと特徴ベース学習を組み合わせたアンサンブルフレームワークであるAMR-EnsembleNetを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Antimicrobial Resistance (AMR) is a rapidly escalating global health crisis. While genomic sequencing enables rapid prediction of resistance phenotypes, current computational methods have limitations. Standard machine learning models treat the genome as an unordered collection of features, ignoring the sequential context of Single Nucleotide Polymorphisms (SNPs). State-of-the-art sequence models like Transformers are often too data-hungry and computationally expensive for the moderately-sized datasets that are typical in this domain. To address these challenges, we propose AMR-EnsembleNet, an ensemble framework that synergistically combines sequence-based and feature-based learning. We developed a lightweight, custom 1D Convolutional Neural Network (CNN) to efficiently learn predictive sequence motifs from high-dimensional SNP data. This sequence-aware model was ensembled with an XGBoost model, a powerful gradient boosting system adept at capturing complex, non-local feature interactions. We trained and evaluated our framework on a benchmark dataset of 809 E. coli strains, predicting resistance across four antibiotics with varying class imbalance. Our 1D CNN-XGBoost ensemble consistently achieved top-tier performance across all the antibiotics, reaching a Matthews Correlation Coefficient (MCC) of 0.926 for Ciprofloxacin (CIP) and the highest Macro F1-score of 0.691 for the challenging Gentamicin (GEN) AMR prediction. We also show that our model consistently focuses on SNPs within well-known AMR genes like fusA and parC, confirming it learns the correct genetic signals for resistance. Our work demonstrates that fusing a sequence-aware 1D CNN with a feature-based XGBoost model creates a powerful ensemble, overcoming the limitations of using either an order-agnostic or a standalone sequence model.
- Abstract(参考訳): 抗微生物抵抗性(AMR)は、急速に拡大する世界的な健康危機である。
ゲノムシークエンシングは抵抗表現型の迅速な予測を可能にするが、現在の計算手法には限界がある。
標準的な機械学習モデルは、ゲノムを、単一ヌクレオチド多型(SNP)のシーケンシャルコンテキストを無視した、順序のない特徴の集合として扱う。
Transformerのような最先端のシーケンスモデルは、このドメインで典型的な適度なサイズのデータセットでは、しばしばデータハングリーであり、計算コストが高い。
これらの課題に対処するために,シーケンスベースと特徴ベースの学習を相乗的に組み合わせたアンサンブルフレームワークであるAMR-EnsembleNetを提案する。
高次元SNPデータから予測シーケンスのモチーフを効率的に学習する軽量でカスタムな1D畳み込みニューラルネットワーク(CNN)を開発した。
このシーケンシャル・アウェア・モデルは、複雑な非局所的特徴相互作用を捉えるのに有効な強力な勾配向上システムであるXGBoostモデルで組み立てられた。
809株の大腸菌株をベンチマークで評価し,クラス不均衡の異なる4種類の抗生物質に対する耐性を予測した。
我々の1D CNN-XGBoostアンサンブルは、CIP(Ciprofloxacin)の0.926のMatthews correlation Coefficient(MCC)、難治性のGentamicin(GEN)AMR予測のMacro F1スコア(0。
また、我々のモデルは、fusAやparCのようなよく知られたAMR遺伝子内のSNPに一貫して焦点を合わせ、抵抗性の正しい遺伝シグナルを学習していることも示している。
我々の研究は、配列を意識した1D CNNを特徴ベースのXGBoostモデルで融合させることで、順序に依存しない、あるいはスタンドアロンのシーケンスモデルを使用するという制限を克服する強力なアンサンブルを生み出すことを実証している。
関連論文リスト
- UniGenX: a unified generative foundation model that couples sequence, structure and function to accelerate scientific design across proteins, molecules and materials [62.72989417755985]
自然系における関数の統一生成モデルUniGenXを提案する。
UniGenXはシンボルトークンと数値トークンの混合ストリームとして異種入力を表す。
ドメイン間のファンクション・アウェア・ジェネレーションに対して、最先端または競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-09T16:43:07Z) - Predicting gene essentiality and drug response from perturbation screens in preclinical cancer models with LEAP: Layered Ensemble of Autoencoders and Predictors [0.0]
本稿では,ロバスト性と一般化を向上する新しいアンサンブルフレームワークであるLEAP(Layered Ensemble of Autoencoders and Predictors)を紹介する。
LEAPは、未確認の細胞株、組織、および疾患モデルにおいて、遺伝子本質または薬物応答を予測する最先端のアプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2025-02-21T18:12:36Z) - sc-OTGM: Single-Cell Perturbation Modeling by Solving Optimal Mass Transport on the Manifold of Gaussian Mixtures [0.9674145073701153]
sc-OTGMは、scRNAseqデータが生成される誘導バイアスに基づく教師なしモデルである。
sc-OTGMは細胞状態の分類、異なる遺伝子発現の解析、標的同定のための遺伝子ランキングに有効である。
また、下流遺伝子制御に対する単一遺伝子の摂動の影響を予測し、特定の細胞状態に条件付けられた合成scRNA-seqデータを生成する。
論文 参考訳(メタデータ) (2024-05-06T06:46:11Z) - GraSSRep: Graph-Based Self-Supervised Learning for Repeat Detection in
Metagenomic Assembly [24.55141372357102]
反復DNA (repeats) は、正確で効率的なゲノム組立てと配列アライメントに重大な課題をもたらす。
GraSSRepは、DNA配列を反復的および非反復的なカテゴリに分類する自己教師型学習フレームワークである。
GraSSRepはシークエンシング機能と事前定義された学習グラフ機能を組み合わせることで、繰り返し検出における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-02-14T18:26:58Z) - Gene-induced Multimodal Pre-training for Image-omic Classification [20.465959546613554]
本稿では、ゲノム情報と全スライド画像(WSI)を併用した遺伝子誘導型マルチモーダル事前学習フレームワークを提案する。
TCGAデータセットによる実験結果から,ネットワークアーキテクチャと事前学習フレームワークの優位性が示され,画像-オミクス分類の精度は99.47%に達した。
論文 参考訳(メタデータ) (2023-09-06T04:30:15Z) - Continuous time recurrent neural networks: overview and application to
forecasting blood glucose in the intensive care unit [56.801856519460465]
連続時間自己回帰リカレントニューラルネットワーク(Continuous Time Autoregressive Recurrent Neural Network, CTRNN)は、不規則な観測を考慮に入れたディープラーニングモデルである。
重篤なケア環境下での血糖値の確率予測へのこれらのモデルの適用を実証する。
論文 参考訳(メタデータ) (2023-04-14T09:39:06Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文 参考訳(メタデータ) (2022-10-05T20:44:55Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - COVID-19 Classification Using Staked Ensembles: A Comprehensive Analysis [0.0]
新型コロナウイルスは大量死亡率で増加し、WHOはパンデミックと宣言した。
効率的かつ迅速な診断が不可欠である。
逆転写ポリメラーゼ鎖反応(RTPCR)テストを行い、SARS-CoV-2の存在を検出する。
代わりに胸部CT(または胸部X線)を高速かつ正確な診断に用いることができる。
論文 参考訳(メタデータ) (2020-10-07T07:43:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。