論文の概要: DNABERT-S: Pioneering Species Differentiation with Species-Aware DNA Embeddings
- arxiv url: http://arxiv.org/abs/2402.08777v3
- Date: Tue, 22 Oct 2024 04:14:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:26:09.361442
- Title: DNABERT-S: Pioneering Species Differentiation with Species-Aware DNA Embeddings
- Title(参考訳): DNABERT-S: 種別DNA埋め込みを用いたピオネリング種分化
- Authors: Zhihan Zhou, Weimin Wu, Harrison Ho, Jiayi Wang, Lizhen Shi, Ramana V Davuluri, Zhong Wang, Han Liu,
- Abstract要約: DNABERT-S(DNABERT-S)は,異なる種のDNA配列を自然にクラスターし,分離するために,種認識の埋め込みを開発するゲノムモデルである。
23の多様なデータセットの創発的な結果は、特に現実的なラベルスカースシナリオにおいて、DNABERT-Sの有効性を示している。
- 参考スコア(独自算出の注目度): 7.822348354050447
- License:
- Abstract: We introduce DNABERT-S, a tailored genome model that develops species-aware embeddings to naturally cluster and segregate DNA sequences of different species in the embedding space. Differentiating species from genomic sequences (i.e., DNA and RNA) is vital yet challenging, since many real-world species remain uncharacterized, lacking known genomes for reference. Embedding-based methods are therefore used to differentiate species in an unsupervised manner. DNABERT-S builds upon a pre-trained genome foundation model named DNABERT-2. To encourage effective embeddings to error-prone long-read DNA sequences, we introduce Manifold Instance Mixup (MI-Mix), a contrastive objective that mixes the hidden representations of DNA sequences at randomly selected layers and trains the model to recognize and differentiate these mixed proportions at the output layer. We further enhance it with the proposed Curriculum Contrastive Learning (C$^2$LR) strategy. Empirical results on 23 diverse datasets show DNABERT-S's effectiveness, especially in realistic label-scarce scenarios. For example, it identifies twice more species from a mixture of unlabeled genomic sequences, doubles the Adjusted Rand Index (ARI) in species clustering, and outperforms the top baseline's performance in 10-shot species classification with just a 2-shot training. Model, codes, and data are publicly available at \url{https://github.com/MAGICS-LAB/DNABERT_S}.
- Abstract(参考訳): DNABERT-S(DNABERT-S)は,組込み空間内の異なる種のDNA配列を自然にクラスターし,分離するために,種を意識した組込みを発達させるゲノムモデルである。
ゲノム配列(すなわちDNAとRNA)から種を分化することは、多くの現実世界の種は、参照のための既知のゲノムを欠いているため、非常に困難である。
したがって、埋め込みに基づく手法は、教師なしの方法で種を区別するために用いられる。
DNABERT-SはDNABERT-2と呼ばれる事前訓練されたゲノム基盤モデルに基づいている。
ランダムに選択された層におけるDNA配列の隠蔽表現を混合し、これらの混合比率を出力層で認識・識別するようモデルに訓練する、対照的な目的であるManifold Instance Mixup(MI-Mix)を導入する。
提案したC$^2$LR(Curriculum Contrastive Learning)戦略によりさらに強化する。
23の多様なデータセットの実証結果は、特に現実的なラベルスカースシナリオにおいて、DNABERT-Sの有効性を示している。
例えば、ラベルのないゲノム配列の混合物から2倍の種を識別し、種クラスタリングにおいて調整されたランダム指数(ARI)を2倍にし、わずか2ショットの訓練で10ショットの種分類においてトップベースラインのパフォーマンスを上回っている。
モデル、コード、データは \url{https://github.com/MAGICS-LAB/DNABERT_S} で公開されている。
関連論文リスト
- Adversarial Examples for DNA Classification [0.0]
DNAシークエンス分類のためのテキスト分類によく使われる攻撃アルゴリズムを適用した。
文字,単語,文レベルでのDNA配列分類に対する種々の攻撃方法の影響を評価した。
論文 参考訳(メタデータ) (2024-09-29T21:20:57Z) - CGRclust: Chaos Game Representation for Twin Contrastive Clustering of Unlabelled DNA Sequences [0.0]
CGRclustは、DNA配列のChaos Game Representations(CGR)と畳み込みニューラルネットワーク(CNN)を組み合わせた、教師なし双対のコントラストクラスタリングの新規な組み合わせである
CGRclustは、DNA配列のクラスタリングデータセットのイメージ分類に教師なし学習を使用する最初の方法である。
CGRclustは、魚類のミトコンドリアDNAゲノムで検査された4つの分類レベル全てで81.70%を超える唯一の方法である。
論文 参考訳(メタデータ) (2024-07-01T23:24:05Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - DiscDiff: Latent Diffusion Model for DNA Sequence Generation [4.946462450157714]
本稿では, 離散的なDNA配列を生成するための遅延拡散モデルであるDisdisDiffと, これらの配列を洗練するためのポストトレーニングアルゴリズムであるAbsorb-Escapeを紹介する。
EPD-GenDNAは15種から16万のユニークな配列を含む、DNA生成のための最初の包括的で多種のデータセットである。
本研究は,遺伝子治療やタンパク質生産に影響を及ぼす可能性のあるDNA生成モデルの構築を期待する。
論文 参考訳(メタデータ) (2024-02-08T22:06:55Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - BarcodeBERT: Transformers for Biodiversity Analysis [19.082058886309028]
本稿では,生物多様性解析のための自己管理手法BarcodeBERTを提案する。
大規模なDNAバーコードデータセットで事前訓練されたBarcodeBERTは、複数の下流分類タスクでDNABERTとDNABERT-2を上回っている。
論文 参考訳(メタデータ) (2023-11-04T13:25:49Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z) - rfPhen2Gen: A machine learning based association study of brain imaging
phenotypes to genotypes [71.1144397510333]
56個の脳画像QTを用いてSNPを予測する機械学習モデルを学習した。
アルツハイマー病(AD)リスク遺伝子APOEのSNPは、ラスソとランダムな森林に対して最低のRMSEを有していた。
ランダム・フォレストは、線形モデルによって優先順位付けされなかったが、脳関連疾患と関連があることが知られている追加のSNPを特定した。
論文 参考訳(メタデータ) (2022-03-31T20:15:22Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - A deep learning classifier for local ancestry inference [63.8376359764052]
局所祖先推論は、個人のゲノムの各セグメントの祖先を特定する。
我々は,エンコーダ・デコーダアーキテクチャを備えた深層畳み込みニューラルネットワークを用いた新しいLAIツールを開発した。
我々は,既存のゴールド標準ツール RFMix とほぼ同等の精度で,ゼロショットタスクとしてアドミキシングを学習できることを実証した。
論文 参考訳(メタデータ) (2020-11-04T00:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。