論文の概要: METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring
- arxiv url: http://arxiv.org/abs/2501.02045v1
- Date: Fri, 03 Jan 2025 18:44:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:10:04.119263
- Title: METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring
- Title(参考訳): MetaGENE-1:パンデミックモニタリングのためのメタゲノミクス基盤モデル
- Authors: Ollie Liu, Sami Jaghouar, Johannes Hagemann, Shangshang Wang, Jason Wiemels, Jeff Kaufman, Willie Neiswanger,
- Abstract要約: メタゲノミクス基礎モデルMETAGENE-1を, 種々のメタゲノミクスDNAおよびRNA配列の新規コーパスでプレトレーニングした。
このデータセットは、深層メタゲノミクスシークエンシング法を用いて処理およびシーケンスされたヒト排水サンプルの大規模なコレクションから得られたものである。
我々は、このモデルをメダゲノミクスデータセット上で事前トレーニングし、事前トレーニングの過程における損失、システムメトリクス、トレーニング安定性の詳細を提供する。
- 参考スコア(独自算出の注目度): 13.988975730867107
- License:
- Abstract: We pretrain METAGENE-1, a 7-billion-parameter autoregressive transformer model, which we refer to as a metagenomic foundation model, on a novel corpus of diverse metagenomic DNA and RNA sequences comprising over 1.5 trillion base pairs. This dataset is sourced from a large collection of human wastewater samples, processed and sequenced using deep metagenomic (next-generation) sequencing methods. Unlike genomic models that focus on individual genomes or curated sets of specific species, the aim of METAGENE-1 is to capture the full distribution of genomic information present within this wastewater, to aid in tasks relevant to pandemic monitoring and pathogen detection. We carry out byte-pair encoding (BPE) tokenization on our dataset, tailored for metagenomic sequences, and then pretrain our model. In this paper, we first detail the pretraining dataset, tokenization strategy, and model architecture, highlighting the considerations and design choices that enable the effective modeling of metagenomic data. We then show results of pretraining this model on our metagenomic dataset, providing details about our losses, system metrics, and training stability over the course of pretraining. Finally, we demonstrate the performance of METAGENE-1, which achieves state-of-the-art results on a set of genomic benchmarks and new evaluations focused on human-pathogen detection and genomic sequence embedding, showcasing its potential for public health applications in pandemic monitoring, biosurveillance, and early detection of emerging health threats.
- Abstract(参考訳): メタゲネ-1は、7ビリオンパラメーター自己回帰トランスフォーマーモデルであり、メタゲネ-1は、1.5兆塩基対以上の多種多様なメタゲネムDNAとRNA配列からなる新規なコーパス上で、メタゲネム基盤モデル(メタゲネムモデル)と呼ばれる。
このデータセットは、深層メタゲノミクス(次世代)シークエンシング法を用いて処理およびシーケンスされた、ヒト排水サンプルの大規模なコレクションから得られたものである。
個々のゲノムや特定の種の培養セットに焦点を当てたゲノムモデルとは異なり、MeTAGENE-1の目的は、この排水に含まれるゲノム情報の完全な分布を捉え、パンデミックのモニタリングや病原体検出に関わるタスクを支援することである。
我々は、データセット上でバイトペア符号化(BPE)トークン化を実行し、ミアゲノミクスシーケンス用に調整し、モデルを事前訓練する。
本稿では、まず、事前学習データセット、トークン化戦略、モデルアーキテクチャについて詳述し、メダゲノミクスデータの効果的なモデリングを可能にする考慮事項と設計選択を強調した。
次に、このモデルをメダゲノミクスデータセット上で事前トレーニングした結果を示し、事前トレーニングの過程での損失、システムメトリクス、トレーニング安定性の詳細を提供します。
最後に,ヒトの病原体検出とゲノム配列の組込みに着目した一連のゲノムベンチマークと新たな評価を行い,パンデミックモニタリング,バイオサーベイランス,新興の健康脅威の早期発見における公衆衛生応用の可能性を示すMeTAGENE-1の性能を実証した。
関連論文リスト
- Stacked ensemble\-based mutagenicity prediction model using multiple modalities with graph attention network [0.9736758288065405]
変異原性は、様々なネガティブな結果をもたらす遺伝子変異と関連しているため、懸念される。
本研究では,新しいアンサンブルに基づく変異原性予測モデルを提案する。
論文 参考訳(メタデータ) (2024-09-03T09:14:21Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Genomic Interpreter: A Hierarchical Genomic Deep Neural Network with 1D
Shifted Window Transformer [4.059849656394191]
Genomic Interpreterはゲノムアッセイ予測のための新しいアーキテクチャである。
モデルはゲノムサイトの階層的依存関係を識別できる。
17K対の38,171のDNAセグメントを含むデータセットで評価される。
論文 参考訳(メタデータ) (2023-06-08T12:10:13Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Multi-task fusion for improving mammography screening data
classification [3.7683182861690843]
まず、個別のタスク固有のモデルのセットをトレーニングするパイプラインアプローチを提案する。
次に、標準モデルの集合戦略とは対照的に、その融合について検討する。
我々の融合アプローチは、標準モデルのアンサンブルに比べてAUCのスコアを最大0.04向上させる。
論文 参考訳(メタデータ) (2021-12-01T13:56:27Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - Data-Driven Logistic Regression Ensembles With Applications in Genomics [0.0]
本稿では,正規化とアンサンブルのアイデアを組み合わせた高次元二項分類問題に対する新しいアプローチを提案する。
がん,多発性硬化症,乾皮症などの共通疾患を含むいくつかの医学的データセットを用いて,バイオマーカーの予測精度と同定の点で,本手法の優れた性能を実証した。
論文 参考訳(メタデータ) (2021-02-17T05:57:26Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。