論文の概要: Contrastive Deep Learning for Variant Detection in Wastewater Genomic Sequencing
- arxiv url: http://arxiv.org/abs/2512.03158v1
- Date: Tue, 02 Dec 2025 19:04:05 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:05:29.920533
- Title: Contrastive Deep Learning for Variant Detection in Wastewater Genomic Sequencing
- Title(参考訳): 排水ゲノムシークエンシングにおける変数検出のための対照的な深層学習
- Authors: Adele Chinda, Richmond Azumah, Hemanth Demakethepalli Venkateswara,
- Abstract要約: 本稿では,Vector-Quantized Variational Autoencoders (VQ-VAE) を用いた非教師付きウイルス変異検出のための包括的フレームワークを提案する。
VQ-VAEは、参照ゲノムや変異ラベルを必要とせずに、k-merトークン化配列からゲノムパターンの離散コードブックを学習する。
我々のフレームワークは、ゲノム監視のスケーラブルで解釈可能なアプローチと、公衆衛生モニタリングへの直接的な応用を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Wastewater-based genomic surveillance has emerged as a powerful tool for population-level viral monitoring, offering comprehensive insights into circulating viral variants across entire communities. However, this approach faces significant computational challenges stemming from high sequencing noise, low viral coverage, fragmented reads, and the complete absence of labeled variant annotations. Traditional reference-based variant calling pipelines struggle with novel mutations and require extensive computational resources. We present a comprehensive framework for unsupervised viral variant detection using Vector-Quantized Variational Autoencoders (VQ-VAE) that learns discrete codebooks of genomic patterns from k-mer tokenized sequences without requiring reference genomes or variant labels. Our approach extends the base VQ-VAE architecture with masked reconstruction pretraining for robustness to missing data and contrastive learning for highly discriminative embeddings. Evaluated on SARS-CoV-2 wastewater sequencing data comprising approximately 100,000 reads, our VQ-VAE achieves 99.52% mean token-level accuracy and 56.33% exact sequence match rate while maintaining 19.73% codebook utilization (101 of 512 codes active), demonstrating efficient discrete representation learning. Contrastive fine-tuning with different projection dimensions yields substantial clustering improvements: 64-dimensional embeddings achieve +35% Silhouette score improvement (0.31 to 0.42), while 128-dimensional embeddings achieve +42% improvement (0.31 to 0.44), clearly demonstrating the impact of embedding dimensionality on variant discrimination capability. Our reference-free framework provides a scalable, interpretable approach to genomic surveillance with direct applications to public health monitoring.
- Abstract(参考訳): 排水をベースとしたゲノム監視は、人口レベルのウイルスモニタリングの強力なツールとして登場し、地域全体でのウイルスの循環に関する総合的な洞察を提供している。
しかし、このアプローチは、高いシークエンシングノイズ、低いバイラルカバレッジ、断片化読み込み、ラベル付き不変アノテーションの完全欠如など、重大な計算上の課題に直面している。
従来の参照ベースの可変呼び出しパイプラインは、新しい突然変異に悩まされ、広範な計算資源を必要とする。
本稿では、Vector-Quantized Variational Autoencoders (VQ-VAE) を用いて、参照ゲノムや変異ラベルを必要とせず、k-merトークン化配列からゲノムパターンの離散コードブックを学習する、教師なしウイルス変異検出のための包括的なフレームワークを提案する。
提案手法は基本となるVQ-VAEアーキテクチャを拡張し,ロバスト性とデータ不足に対する頑健性,高識別性埋め込みのためのコントラスト学習を実現した。
平均トークンレベルの精度は99.52%, 56.33%, 19.73%のコードブック利用率(512コードのうち101がアクティブ)を維持し, 効率的な離散表現学習を実現している。
64次元の埋め込みは+35%のシルエットスコアの改善(0.31から0.42)を達成し、128次元の埋め込みは+42%の改善(0.31から0.44)を達成し、埋め込み次元が変分識別能力に与える影響を明確に示す。
我々の参照フリーフレームワークは、ゲノム監視のスケーラブルで解釈可能なアプローチと、公衆衛生モニタリングへの直接的な応用を提供する。
関連論文リスト
- AGNES: Adaptive Graph Neural Network and Dynamic Programming Hybrid Framework for Real-Time Nanopore Seed Chaining [0.0]
ナノ孔シークエンシングにより、リアルタイムの長読DNAシークエンシングが可能で、読み取りは10キロ塩基を超える。
12~15パーセントの固有エラー率は、リードアライメントにおいて重要な計算上の課題を提示する。
本稿では,グラフニューラルネットワークと古典動的プログラミングを組み合わせた適応型シードチェインのためのハイブリッドフレームワークRawHash3を提案する。
論文 参考訳(メタデータ) (2025-10-15T08:05:43Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - A Feature-Level Ensemble Model for COVID-19 Identification in CXR Images using Choquet Integral and Differential Evolution Optimization [0.7510165488300369]
新型コロナウイルスのパンデミックを緩和するための効果的な戦略は、感染した個人を特定するための検査を統合することである。
RT-PCRは、新型コロナウイルスの診断における金の基準と考えられているが、偽陰性のリスクなどいくつかの制限がある。
本稿では,事前学習したディープ・コーン・ニューラル・ニューラルネットワーク(DCNN)をアンサンブル学習フレームワークに統合した新しいディープラーニング診断システムを提案する。
論文 参考訳(メタデータ) (2025-01-14T16:28:02Z) - Large-Scale Targeted Cause Discovery via Learning from Simulated Data [66.51307552703685]
本稿では,観測結果から対象変数の因果変数を推定する機械学習手法を提案する。
我々は、シミュレートされたデータに基づいて教師あり学習を用いてニューラルネットワークを訓練し、因果関係を推定する。
大規模遺伝子制御ネットワークにおける因果関係の同定に優れた性能を示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-08-29T02:21:11Z) - A Conditional Flow Variational Autoencoder for Controllable Synthesis of
Virtual Populations of Anatomy [76.20367415712867]
本稿では,正規化フローを用いた条件付き変分オートエンコーダ(cVAE)を提案する。
2360例の心左心室データを用いた条件流VAEの性能について検討した。
論文 参考訳(メタデータ) (2023-06-26T13:23:52Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - CovidDeep: SARS-CoV-2/COVID-19 Test Based on Wearable Medical Sensors
and Efficient Neural Networks [51.589769497681175]
新型コロナウイルス(SARS-CoV-2)がパンデミックを引き起こしている。
SARS-CoV-2の逆転写-ポリメラーゼ連鎖反応に基づく現在の試験体制は、試験要求に追いついていない。
我々は,効率的なDNNと市販のWMSを組み合わせたCovidDeepというフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-20T21:47:28Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。