論文の概要: Enhancing Downstream Analysis in Genome Sequencing: Species Classification While Basecalling
- arxiv url: http://arxiv.org/abs/2504.07065v1
- Date: Wed, 09 Apr 2025 17:30:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 16:14:40.889428
- Title: Enhancing Downstream Analysis in Genome Sequencing: Species Classification While Basecalling
- Title(参考訳): ゲノムシークエンシングにおける下流解析の強化:ベースコール中の種分類
- Authors: Riselda Kodra, Hadjer Benmeziane, Irem Boybat, William Andrew Simon,
- Abstract要約: 本稿では,ヌクレオチド配列の決定と並行して,シークエンシング装置からの信号のプロファイリングを行う手法を提案する。
本稿では,共有層に対するモデル重みを組み合わせて,ベースコールと分類の損失を個別にバックプロモートする新たな損失戦略を提案する。
我々は最先端のベースコール精度を達成する一方、分類精度は最先端のバイナリ分類器の結果を超えている。
- 参考スコア(独自算出の注目度): 1.0017486177151396
- License:
- Abstract: The ability to quickly and accurately identify microbial species in a sample, known as metagenomic profiling, is critical across various fields, from healthcare to environmental science. This paper introduces a novel method to profile signals coming from sequencing devices in parallel with determining their nucleotide sequences, a process known as basecalling, via a multi-objective deep neural network for simultaneous basecalling and multi-class genome classification. We introduce a new loss strategy where losses for basecalling and classification are back-propagated separately, with model weights combined for the shared layers, and a pre-configured ranking strategy allowing top-K species accuracy, giving users flexibility to choose between higher accuracy or higher speed at identifying the species. We achieve state-of-the-art basecalling accuracies, while classification accuracies meet and exceed the results of state-of-the-art binary classifiers, attaining an average of 92.5%/98.9% accuracy at identifying the top-1/3 species among a total of 17 genomes in the Wick bacterial dataset. The work presented here has implications for future studies in metagenomic profiling by accelerating the bottleneck step of matching the DNA sequence to the correct genome.
- Abstract(参考訳): メダゲノミクス・プロファイリング(英語版)として知られるサンプル中の微生物種を迅速かつ正確に同定する能力は、医療から環境科学まで様々な分野において重要である。
本稿では, 塩基配列決定と並行して, 塩基配列決定を同時に行うことを目的とした, 多目的深層ニューラルネットワークによる塩基配列決定手法を提案する。
モデル重みが共有層に組み合わさったベースコールと分類の損失を個別に抑制する新たな損失戦略を導入するとともに,上位K種を精度良く評価できる事前設定されたランキング戦略を導入する。
We achieve the State-of-the-art basecalling accuracies, while classification accuracies meet the results of the-of-the-art binary classifiers, a average of 92.5%/98.9% accuracy at the average of 92.5%/98.9% accuracy of the top-1/3 species in a total of 17 genomes in the Wick bacteria dataset。
ここで提示された研究は、DNA配列と正しいゲノムとをマッチングするボトルネックステップを加速することにより、メダゲノミクスプロファイリングにおける将来の研究に影響を及ぼす。
関連論文リスト
- A Misclassification Network-Based Method for Comparative Genomic Analysis [3.7671415694914927]
メタデータに基づくゲノム配列の分類は、数十年間、比較ゲノム学において活発な研究領域であった。
本研究では、AIとネットワークサイエンスのアプローチを統合し、比較ゲノム分析フレームワークを開発する。
論文 参考訳(メタデータ) (2024-12-09T23:22:15Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - DNA Sequence Classification with Compressors [0.0]
本研究は,DNA配列解析に適した圧縮機を用いたパラメータフリー分類法を新たに導入する。
この手法は、精度の観点から現在の最先端と整合するだけでなく、従来の機械学習手法よりもリソース効率の良い代替手段を提供する。
論文 参考訳(メタデータ) (2024-01-25T09:17:19Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Using Signal Processing in Tandem With Adapted Mixture Models for
Classifying Genomic Signals [16.119729980200955]
本稿では,ガウス混合モデルとタンデムの信号処理を併用して,シーケンスのスペクトル表現を改善する手法を提案する。
提案手法は、確立されたベンチマークデータセットに対して、6.06%の精度で類似した最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-11-03T06:10:55Z) - Assigning Species Information to Corresponding Genes by a Sequence
Labeling Framework [7.231921004060877]
既存の手法は典型的には、本論文における遺伝子と種間の共起に基づく規則に依存している。
本研究では,新しい深層学習フレームワークを用いた高性能な手法を開発し,遺伝子と種が関係しているかどうかを分類する。
ベンチマークの結果,本手法はルールベースベースライン法と比較すると,かなり高い性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-08T12:39:45Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。
本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。
私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文 参考訳(メタデータ) (2021-02-11T09:04:45Z) - Mycorrhiza: Genotype Assignment usingPhylogenetic Networks [2.286041284499166]
遺伝子型代入問題に対する機械学習手法であるMycorrhizaを紹介する。
提案アルゴリズムは系統ネットワークを用いて,標本間の進化的関係を符号化する特徴を設計する。
Mycorrhizaは、大きな平均固定指数(FST)を持つデータセットやハーディ・ワインバーグ平衡からの偏差で特に顕著な利得を得る。
論文 参考訳(メタデータ) (2020-10-14T02:36:27Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。