論文の概要: DNABERT-S: Learning Species-Aware DNA Embedding with Genome Foundation
Models
- arxiv url: http://arxiv.org/abs/2402.08777v2
- Date: Thu, 15 Feb 2024 04:55:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 12:02:13.075357
- Title: DNABERT-S: Learning Species-Aware DNA Embedding with Genome Foundation
Models
- Title(参考訳): DNABERT-S:ゲノムモデルを用いたDNA埋め込みの学習
- Authors: Zhihan Zhou, Weimin Wu, Harrison Ho, Jiayi Wang, Lizhen Shi, Ramana V
Davuluri, Zhong Wang, Han Liu
- Abstract要約: DNABERT-SはDNAの組込みを専門とするゲノム基盤モデルである。
ミミクス(MI-Mix)は、ランダムに選択された層におけるDNA配列の隠蔽表現を混合し、これらの混合比率を出力層で認識・区別するようにモデルを訓練する。
18種類のデータセットの実証結果から,DNABERT-Sの顕著な性能が確認された。
- 参考スコア(独自算出の注目度): 8.159258510270243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective DNA embedding remains crucial in genomic analysis, particularly in
scenarios lacking labeled data for model fine-tuning, despite the significant
advancements in genome foundation models. A prime example is metagenomics
binning, a critical process in microbiome research that aims to group DNA
sequences by their species from a complex mixture of DNA sequences derived from
potentially thousands of distinct, often uncharacterized species. To fill the
lack of effective DNA embedding models, we introduce DNABERT-S, a genome
foundation model that specializes in creating species-aware DNA embeddings. To
encourage effective embeddings to error-prone long-read DNA sequences, we
introduce Manifold Instance Mixup (MI-Mix), a contrastive objective that mixes
the hidden representations of DNA sequences at randomly selected layers and
trains the model to recognize and differentiate these mixed proportions at the
output layer. We further enhance it with the proposed Curriculum Contrastive
Learning (C$^2$LR) strategy. Empirical results on 18 diverse datasets showed
DNABERT-S's remarkable performance. It outperforms the top baseline's
performance in 10-shot species classification with just a 2-shot training while
doubling the Adjusted Rand Index (ARI) in species clustering and substantially
increasing the number of correctly identified species in metagenomics binning.
The code, data, and pre-trained model are publicly available at
https://github.com/Zhihan1996/DNABERT_S.
- Abstract(参考訳): 効果的なDNA埋め込みは、ゲノム基盤モデルの大幅な進歩にもかかわらず、特にモデル微調整のためのラベル付きデータを持たないシナリオにおいて、ゲノム解析において重要である。
主な例としてメタゲノミクス・ビンニング(Metagenomics binning)は、微生物の研究において重要なプロセスであり、数千の異なる、しばしば非形質化された種から派生した複雑なDNA配列から、その種によってDNA配列を分類することを目的としている。
有効DNA埋め込みモデルの欠如を補うため,DNABERT-Sを導入した。
ランダムに選択された層におけるDNA配列の隠蔽表現を混合し、これらの混合比率を出力層で認識・識別するようモデルに訓練する、対照的な目的であるManifold Instance Mixup(MI-Mix)を導入する。
提案したC$^2$LR(Curriculum Contrastive Learning)戦略によりさらに強化する。
18種類のデータセットの実証結果から,DNABERT-Sは顕著な性能を示した。
これは、10ショットの種分類におけるトップベースラインのパフォーマンスを2ショットの訓練で上回り、また、調整されたランドインデックス(ARI)を2倍にし、メッサージノミクスのビンニングにおいて正しく同定された種の数を著しく増加させた。
コード、データ、事前学習されたモデルはhttps://github.com/zhihan1996/dnabert_sで公開されている。
関連論文リスト
- Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - DiscDiff: Latent Diffusion Model for DNA Sequence Generation [5.194506374366898]
本稿では, 離散的なDNA配列を生成するための遅延拡散モデルであるDisdisDiffと, これらの配列を洗練するためのポストトレーニングアルゴリズムであるAbsorb-Escapeを紹介する。
EPD-GenDNAは15種から16万のユニークな配列を含む、DNA生成のための最初の包括的で多種のデータセットである。
本研究は,遺伝子治療やタンパク質生産に影響を及ぼす可能性のあるDNA生成モデルの構築を期待する。
論文 参考訳(メタデータ) (2024-02-08T22:06:55Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.35697293789605]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - Fast and Functional Structured Data Generators Rooted in
Out-of-Equilibrium Physics [62.997667081978825]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence
Analysis Tasks [14.931476374660944]
DNAGPTは、全哺乳類から200億以上の塩基対をトレーニングした、一般的なDNA事前学習モデルである。
古典的なGPTモデルをバイナリ分類タスク、数値回帰タスク、包括的トークン言語で拡張することにより、DNAGPTは汎用的なDNA解析タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-11T06:30:43Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species
Genome [15.051816241193753]
我々は、k-merのトークン化によって導入された計算とサンプルの非効率性が、大規模なゲノム基盤モデルの開発における主要な障害であると主張している。
我々は、k-merトークン化をByte Pair$(BPE)に置き換えることを提案するゲノムトークン化に関する概念的および実証的な洞察を提供する。
DNABERT-2は、効率的なトークン化を施し、入力長制約を克服するために複数の戦略を用いるゲノム基盤モデルである。
論文 参考訳(メタデータ) (2023-06-26T18:43:46Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - DNA-GCN: Graph convolutional networks for predicting DNA-protein binding [4.1600531290054]
シーケンスk-merグラフを構築し、データセット全体のDNA-GCN(DNA-GCN)を学習する。
DNA-GCNは全てのノードに対して1ホット表現を持ち、その後、k-merとシーケンスの両方の埋め込みを共同で学習する。
ENCODEから50のデータセットでモデルを評価した。
論文 参考訳(メタデータ) (2021-06-02T07:36:11Z) - A deep learning classifier for local ancestry inference [63.8376359764052]
局所祖先推論は、個人のゲノムの各セグメントの祖先を特定する。
我々は,エンコーダ・デコーダアーキテクチャを備えた深層畳み込みニューラルネットワークを用いた新しいLAIツールを開発した。
我々は,既存のゴールド標準ツール RFMix とほぼ同等の精度で,ゼロショットタスクとしてアドミキシングを学習できることを実証した。
論文 参考訳(メタデータ) (2020-11-04T00:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。