論文の概要: DNABERT-S: Learning Species-Aware DNA Embedding with Genome Foundation
Models
- arxiv url: http://arxiv.org/abs/2402.08777v2
- Date: Thu, 15 Feb 2024 04:55:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 12:02:13.075357
- Title: DNABERT-S: Learning Species-Aware DNA Embedding with Genome Foundation
Models
- Title(参考訳): DNABERT-S:ゲノムモデルを用いたDNA埋め込みの学習
- Authors: Zhihan Zhou, Weimin Wu, Harrison Ho, Jiayi Wang, Lizhen Shi, Ramana V
Davuluri, Zhong Wang, Han Liu
- Abstract要約: DNABERT-SはDNAの組込みを専門とするゲノム基盤モデルである。
ミミクス(MI-Mix)は、ランダムに選択された層におけるDNA配列の隠蔽表現を混合し、これらの混合比率を出力層で認識・区別するようにモデルを訓練する。
18種類のデータセットの実証結果から,DNABERT-Sの顕著な性能が確認された。
- 参考スコア(独自算出の注目度): 8.159258510270243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective DNA embedding remains crucial in genomic analysis, particularly in
scenarios lacking labeled data for model fine-tuning, despite the significant
advancements in genome foundation models. A prime example is metagenomics
binning, a critical process in microbiome research that aims to group DNA
sequences by their species from a complex mixture of DNA sequences derived from
potentially thousands of distinct, often uncharacterized species. To fill the
lack of effective DNA embedding models, we introduce DNABERT-S, a genome
foundation model that specializes in creating species-aware DNA embeddings. To
encourage effective embeddings to error-prone long-read DNA sequences, we
introduce Manifold Instance Mixup (MI-Mix), a contrastive objective that mixes
the hidden representations of DNA sequences at randomly selected layers and
trains the model to recognize and differentiate these mixed proportions at the
output layer. We further enhance it with the proposed Curriculum Contrastive
Learning (C$^2$LR) strategy. Empirical results on 18 diverse datasets showed
DNABERT-S's remarkable performance. It outperforms the top baseline's
performance in 10-shot species classification with just a 2-shot training while
doubling the Adjusted Rand Index (ARI) in species clustering and substantially
increasing the number of correctly identified species in metagenomics binning.
The code, data, and pre-trained model are publicly available at
https://github.com/Zhihan1996/DNABERT_S.
- Abstract(参考訳): 効果的なDNA埋め込みは、ゲノム基盤モデルの大幅な進歩にもかかわらず、特にモデル微調整のためのラベル付きデータを持たないシナリオにおいて、ゲノム解析において重要である。
主な例としてメタゲノミクス・ビンニング(Metagenomics binning)は、微生物の研究において重要なプロセスであり、数千の異なる、しばしば非形質化された種から派生した複雑なDNA配列から、その種によってDNA配列を分類することを目的としている。
有効DNA埋め込みモデルの欠如を補うため,DNABERT-Sを導入した。
ランダムに選択された層におけるDNA配列の隠蔽表現を混合し、これらの混合比率を出力層で認識・識別するようモデルに訓練する、対照的な目的であるManifold Instance Mixup(MI-Mix)を導入する。
提案したC$^2$LR(Curriculum Contrastive Learning)戦略によりさらに強化する。
18種類のデータセットの実証結果から,DNABERT-Sは顕著な性能を示した。
これは、10ショットの種分類におけるトップベースラインのパフォーマンスを2ショットの訓練で上回り、また、調整されたランドインデックス(ARI)を2倍にし、メッサージノミクスのビンニングにおいて正しく同定された種の数を著しく増加させた。
コード、データ、事前学習されたモデルはhttps://github.com/zhihan1996/dnabert_sで公開されている。
関連論文リスト
- Adversarial Examples for DNA Classification [0.0]
DNAシークエンス分類のためのテキスト分類によく使われる攻撃アルゴリズムを適用した。
文字,単語,文レベルでのDNA配列分類に対する種々の攻撃方法の影響を評価した。
論文 参考訳(メタデータ) (2024-09-29T21:20:57Z) - CGRclust: Chaos Game Representation for Twin Contrastive Clustering of Unlabelled DNA Sequences [0.0]
CGRclustは、DNA配列のChaos Game Representations(CGR)と畳み込みニューラルネットワーク(CNN)を組み合わせた、教師なし双対のコントラストクラスタリングの新規な組み合わせである
CGRclustは、DNA配列のクラスタリングデータセットのイメージ分類に教師なし学習を使用する最初の方法である。
CGRclustは、魚類のミトコンドリアDNAゲノムで検査された4つの分類レベル全てで81.70%を超える唯一の方法である。
論文 参考訳(メタデータ) (2024-07-01T23:24:05Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - DiscDiff: Latent Diffusion Model for DNA Sequence Generation [4.946462450157714]
本稿では, 離散的なDNA配列を生成するための遅延拡散モデルであるDisdisDiffと, これらの配列を洗練するためのポストトレーニングアルゴリズムであるAbsorb-Escapeを紹介する。
EPD-GenDNAは15種から16万のユニークな配列を含む、DNA生成のための最初の包括的で多種のデータセットである。
本研究は,遺伝子治療やタンパク質生産に影響を及ぼす可能性のあるDNA生成モデルの構築を期待する。
論文 参考訳(メタデータ) (2024-02-08T22:06:55Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - BarcodeBERT: Transformers for Biodiversity Analysis [19.082058886309028]
本稿では,生物多様性解析のための自己管理手法BarcodeBERTを提案する。
大規模なDNAバーコードデータセットで事前訓練されたBarcodeBERTは、複数の下流分類タスクでDNABERTとDNABERT-2を上回っている。
論文 参考訳(メタデータ) (2023-11-04T13:25:49Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z) - rfPhen2Gen: A machine learning based association study of brain imaging
phenotypes to genotypes [71.1144397510333]
56個の脳画像QTを用いてSNPを予測する機械学習モデルを学習した。
アルツハイマー病(AD)リスク遺伝子APOEのSNPは、ラスソとランダムな森林に対して最低のRMSEを有していた。
ランダム・フォレストは、線形モデルによって優先順位付けされなかったが、脳関連疾患と関連があることが知られている追加のSNPを特定した。
論文 参考訳(メタデータ) (2022-03-31T20:15:22Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - A deep learning classifier for local ancestry inference [63.8376359764052]
局所祖先推論は、個人のゲノムの各セグメントの祖先を特定する。
我々は,エンコーダ・デコーダアーキテクチャを備えた深層畳み込みニューラルネットワークを用いた新しいLAIツールを開発した。
我々は,既存のゴールド標準ツール RFMix とほぼ同等の精度で,ゼロショットタスクとしてアドミキシングを学習できることを実証した。
論文 参考訳(メタデータ) (2020-11-04T00:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。