Fugu-MT 論文翻訳(概要): DNABERT-S: Learning Species-Aware DNA Embedding with Genome Foundation Models

論文の概要: DNABERT-S: Learning Species-Aware DNA Embedding with Genome Foundation Models

arxiv url: http://arxiv.org/abs/2402.08777v2
Date: Thu, 15 Feb 2024 04:55:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 12:02:13.075357
Title: DNABERT-S: Learning Species-Aware DNA Embedding with Genome Foundation Models
Title（参考訳）: DNABERT-S:ゲノムモデルを用いたDNA埋め込みの学習
Authors: Zhihan Zhou, Weimin Wu, Harrison Ho, Jiayi Wang, Lizhen Shi, Ramana V Davuluri, Zhong Wang, Han Liu
Abstract要約: DNABERT-SはDNAの組込みを専門とするゲノム基盤モデルである。ミミクス(MI-Mix)は、ランダムに選択された層におけるDNA配列の隠蔽表現を混合し、これらの混合比率を出力層で認識・区別するようにモデルを訓練する。 18種類のデータセットの実証結果から,DNABERT-Sの顕著な性能が確認された。
参考スコア（独自算出の注目度）: 8.159258510270243
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Effective DNA embedding remains crucial in genomic analysis, particularly in scenarios lacking labeled data for model fine-tuning, despite the significant advancements in genome foundation models. A prime example is metagenomics binning, a critical process in microbiome research that aims to group DNA sequences by their species from a complex mixture of DNA sequences derived from potentially thousands of distinct, often uncharacterized species. To fill the lack of effective DNA embedding models, we introduce DNABERT-S, a genome foundation model that specializes in creating species-aware DNA embeddings. To encourage effective embeddings to error-prone long-read DNA sequences, we introduce Manifold Instance Mixup (MI-Mix), a contrastive objective that mixes the hidden representations of DNA sequences at randomly selected layers and trains the model to recognize and differentiate these mixed proportions at the output layer. We further enhance it with the proposed Curriculum Contrastive Learning (C$^2$LR) strategy. Empirical results on 18 diverse datasets showed DNABERT-S's remarkable performance. It outperforms the top baseline's performance in 10-shot species classification with just a 2-shot training while doubling the Adjusted Rand Index (ARI) in species clustering and substantially increasing the number of correctly identified species in metagenomics binning. The code, data, and pre-trained model are publicly available at https://github.com/Zhihan1996/DNABERT_S.
Abstract（参考訳）: 効果的なDNA埋め込みは、ゲノム基盤モデルの大幅な進歩にもかかわらず、特にモデル微調整のためのラベル付きデータを持たないシナリオにおいて、ゲノム解析において重要である。主な例としてメタゲノミクス・ビンニング(Metagenomics binning)は、微生物の研究において重要なプロセスであり、数千の異なる、しばしば非形質化された種から派生した複雑なDNA配列から、その種によってDNA配列を分類することを目的としている。有効DNA埋め込みモデルの欠如を補うため,DNABERT-Sを導入した。ランダムに選択された層におけるDNA配列の隠蔽表現を混合し、これらの混合比率を出力層で認識・識別するようモデルに訓練する、対照的な目的であるManifold Instance Mixup(MI-Mix)を導入する。提案したC$^2$LR(Curriculum Contrastive Learning)戦略によりさらに強化する。 18種類のデータセットの実証結果から,DNABERT-Sは顕著な性能を示した。これは、10ショットの種分類におけるトップベースラインのパフォーマンスを2ショットの訓練で上回り、また、調整されたランドインデックス(ARI)を2倍にし、メッサージノミクスのビンニングにおいて正しく同定された種の数を著しく増加させた。コード、データ、事前学習されたモデルはhttps://github.com/zhihan1996/dnabert_sで公開されている。

関連論文リスト

BMFM-DNA: A SNP-aware DNA foundation model to capture variant effects [14.172782866715844]
テキストで訓練された大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて顕著な結果を示した。 DNAは、明確に定義された単語や一貫した文法が欠けているため、基本的に自然言語と異なる。配列の変動、特にSNP(Single Nucleotide Polymorphisms)を効果的に統合する事前訓練基礎モデル以上の結果から,DNALMに配列変化を組み込むことは,すべての微調整タスクの改善にみられる生物学的機能を把握するのに役立つことが示唆された。
論文参考訳（メタデータ） (2025-06-26T13:56:32Z)
SPACE: Your Genomic Profile Predictor is a Powerful DNA Foundation Model [13.059484204657586]
ゲノムプロファイル予測のための教師付きトレーニングは、純粋なシークエンス事前学習の代替としてより効果的であることを示す。我々のモデルは最先端のパフォーマンスを達成し、教師付きゲノムプロファイルで訓練されたDNAモデルが強力なDNA表現学習者として機能することを確立した。
論文参考訳（メタデータ） (2025-06-02T16:23:05Z)
GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文参考訳（メタデータ） (2025-05-06T03:35:24Z)
HybriDNA: A Hybrid Transformer-Mamba2 Long-Range DNA Language Model [70.69095062674944]
ハイブリッドトランスフォーマー-マンバ2アーキテクチャを組み込んだデコーダのみのDNA言語モデルであるHybriDNAを提案する。このハイブリッド設計により、HybriDNAはDNA配列を最大131kbまで効率よく単一のヌクレオチド分解能で処理できる。 HybriDNAは、BEND、GUE、LRBベンチマークから算出された33のDNA理解データセットにまたがる最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-02-15T14:23:43Z)
Adversarial Examples for DNA Classification [0.0]
DNAシークエンス分類のためのテキスト分類によく使われる攻撃アルゴリズムを適用した。文字,単語,文レベルでのDNA配列分類に対する種々の攻撃方法の影響を評価した。
論文参考訳（メタデータ） (2024-09-29T21:20:57Z)
CGRclust: Chaos Game Representation for Twin Contrastive Clustering of Unlabelled DNA Sequences [0.0]
CGRclustは、DNA配列のChaos Game Representations(CGR)と畳み込みニューラルネットワーク(CNN)を組み合わせた、教師なし双対のコントラストクラスタリングの新規な組み合わせである CGRclustは、DNA配列のクラスタリングデータセットのイメージ分類に教師なし学習を使用する最初の方法である。 CGRclustは、魚類のミトコンドリアDNAゲノムで検査された4つの分類レベル全てで81.70%を超える唯一の方法である。
論文参考訳（メタデータ） (2024-07-01T23:24:05Z)
VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文参考訳（メタデータ） (2024-05-13T20:15:03Z)
DiscDiff: Latent Diffusion Model for DNA Sequence Generation [4.946462450157714]
本稿では, 離散的なDNA配列を生成するための遅延拡散モデルであるDisdisDiffと, これらの配列を洗練するためのポストトレーニングアルゴリズムであるAbsorb-Escapeを紹介する。 EPD-GenDNAは15種から16万のユニークな配列を含む、DNA生成のための最初の包括的で多種のデータセットである。本研究は,遺伝子治療やタンパク質生産に影響を及ぼす可能性のあるDNA生成モデルの構築を期待する。
論文参考訳（メタデータ） (2024-02-08T22:06:55Z)
BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文参考訳（メタデータ） (2023-11-21T12:34:00Z)
BarcodeBERT: Transformers for Biodiversity Analysis [19.082058886309028]
本稿では,生物多様性解析のための自己管理手法BarcodeBERTを提案する。大規模なDNAバーコードデータセットで事前訓練されたBarcodeBERTは、複数の下流分類タスクでDNABERTとDNABERT-2を上回っている。
論文参考訳（メタデータ） (2023-11-04T13:25:49Z)
Embed-Search-Align: DNA Sequence Alignment using Transformer Models [2.48439258515764]
我々はTransformerモデルのシーケンスアライメントタスクを"Embed-Search-Align"タスクとしてフレーミングすることでギャップを埋める。新規なレファレンスフリーDNA埋め込みモデルは、共有ベクトル空間に投影される読み取りおよび参照フラグメントの埋め込みを生成する。 DNA-ESAは、BowtieやBWA-Memといった従来の手法に匹敵する、ヒトゲノム(3gb)に250長の読み書きを合わせると99%正確である。
論文参考訳（メタデータ） (2023-09-20T06:30:39Z)
DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence Analysis Tasks [14.931476374660944]
DNAGPTは、全哺乳類から200億以上の塩基対をトレーニングした、一般的なDNA事前学習モデルである。古典的なGPTモデルをバイナリ分類タスク、数値回帰タスク、包括的トークン言語で拡張することにより、DNAGPTは汎用的なDNA解析タスクを処理できる。
論文参考訳（メタデータ） (2023-07-11T06:30:43Z)
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。 Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文参考訳（メタデータ） (2023-06-27T20:46:34Z)
Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文参考訳（メタデータ） (2022-08-10T13:30:58Z)
rfPhen2Gen: A machine learning based association study of brain imaging phenotypes to genotypes [71.1144397510333]
56個の脳画像QTを用いてSNPを予測する機械学習モデルを学習した。アルツハイマー病(AD)リスク遺伝子APOEのSNPは、ラスソとランダムな森林に対して最低のRMSEを有していた。ランダム・フォレストは、線形モデルによって優先順位付けされなかったが、脳関連疾患と関連があることが知られている追加のSNPを特定した。
論文参考訳（メタデータ） (2022-03-31T20:15:22Z)
Multi-modal Self-supervised Pre-training for Regulatory Genome Across Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文参考訳（メタデータ） (2021-10-11T12:48:44Z)
A deep learning classifier for local ancestry inference [63.8376359764052]
局所祖先推論は、個人のゲノムの各セグメントの祖先を特定する。我々は,エンコーダ・デコーダアーキテクチャを備えた深層畳み込みニューラルネットワークを用いた新しいLAIツールを開発した。我々は,既存のゴールド標準ツール RFMix とほぼ同等の精度で,ゼロショットタスクとしてアドミキシングを学習できることを実証した。
論文参考訳（メタデータ） (2020-11-04T00:42:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。