Fugu-MT 論文翻訳(概要): DNABERT-S: Pioneering Species Differentiation with Species-Aware DNA Embeddings

論文の概要: DNABERT-S: Pioneering Species Differentiation with Species-Aware DNA Embeddings

arxiv url: http://arxiv.org/abs/2402.08777v3
Date: Tue, 22 Oct 2024 04:14:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.766093
Title: DNABERT-S: Pioneering Species Differentiation with Species-Aware DNA Embeddings
Title（参考訳）: DNABERT-S: 種別DNA埋め込みを用いたピオネリング種分化
Authors: Zhihan Zhou, Weimin Wu, Harrison Ho, Jiayi Wang, Lizhen Shi, Ramana V Davuluri, Zhong Wang, Han Liu,
Abstract要約: DNABERT-S(DNABERT-S)は,異なる種のDNA配列を自然にクラスターし,分離するために,種認識の埋め込みを開発するゲノムモデルである。 23の多様なデータセットの創発的な結果は、特に現実的なラベルスカースシナリオにおいて、DNABERT-Sの有効性を示している。
参考スコア（独自算出の注目度）: 7.822348354050447
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce DNABERT-S, a tailored genome model that develops species-aware embeddings to naturally cluster and segregate DNA sequences of different species in the embedding space. Differentiating species from genomic sequences (i.e., DNA and RNA) is vital yet challenging, since many real-world species remain uncharacterized, lacking known genomes for reference. Embedding-based methods are therefore used to differentiate species in an unsupervised manner. DNABERT-S builds upon a pre-trained genome foundation model named DNABERT-2. To encourage effective embeddings to error-prone long-read DNA sequences, we introduce Manifold Instance Mixup (MI-Mix), a contrastive objective that mixes the hidden representations of DNA sequences at randomly selected layers and trains the model to recognize and differentiate these mixed proportions at the output layer. We further enhance it with the proposed Curriculum Contrastive Learning (C$^2$LR) strategy. Empirical results on 23 diverse datasets show DNABERT-S's effectiveness, especially in realistic label-scarce scenarios. For example, it identifies twice more species from a mixture of unlabeled genomic sequences, doubles the Adjusted Rand Index (ARI) in species clustering, and outperforms the top baseline's performance in 10-shot species classification with just a 2-shot training. Model, codes, and data are publicly available at \url{https://github.com/MAGICS-LAB/DNABERT_S}.
Abstract（参考訳）: DNABERT-S(DNABERT-S)は,組込み空間内の異なる種のDNA配列を自然にクラスターし,分離するために,種を意識した組込みを発達させるゲノムモデルである。ゲノム配列(すなわちDNAとRNA)から種を分化することは、多くの現実世界の種は、参照のための既知のゲノムを欠いているため、非常に困難である。したがって、埋め込みに基づく手法は、教師なしの方法で種を区別するために用いられる。 DNABERT-SはDNABERT-2と呼ばれる事前訓練されたゲノム基盤モデルに基づいている。ランダムに選択された層におけるDNA配列の隠蔽表現を混合し、これらの混合比率を出力層で認識・識別するようモデルに訓練する、対照的な目的であるManifold Instance Mixup(MI-Mix)を導入する。提案したC$^2$LR(Curriculum Contrastive Learning)戦略によりさらに強化する。 23の多様なデータセットの実証結果は、特に現実的なラベルスカースシナリオにおいて、DNABERT-Sの有効性を示している。例えば、ラベルのないゲノム配列の混合物から2倍の種を識別し、種クラスタリングにおいて調整されたランダム指数(ARI)を2倍にし、わずか2ショットの訓練で10ショットの種分類においてトップベースラインのパフォーマンスを上回っている。モデル、コード、データは \url{https://github.com/MAGICS-LAB/DNABERT_S} で公開されている。

関連論文リスト

BMFM-DNA: A SNP-aware DNA foundation model to capture variant effects [14.172782866715844]
テキストで訓練された大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて顕著な結果を示した。 DNAは、明確に定義された単語や一貫した文法が欠けているため、基本的に自然言語と異なる。配列の変動、特にSNP(Single Nucleotide Polymorphisms)を効果的に統合する事前訓練基礎モデル以上の結果から,DNALMに配列変化を組み込むことは,すべての微調整タスクの改善にみられる生物学的機能を把握するのに役立つことが示唆された。
論文参考訳（メタデータ） (2025-06-26T13:56:32Z)
SPACE: Your Genomic Profile Predictor is a Powerful DNA Foundation Model [13.059484204657586]
ゲノムプロファイル予測のための教師付きトレーニングは、純粋なシークエンス事前学習の代替としてより効果的であることを示す。我々のモデルは最先端のパフォーマンスを達成し、教師付きゲノムプロファイルで訓練されたDNAモデルが強力なDNA表現学習者として機能することを確立した。
論文参考訳（メタデータ） (2025-06-02T16:23:05Z)
GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文参考訳（メタデータ） (2025-05-06T03:35:24Z)
HybriDNA: A Hybrid Transformer-Mamba2 Long-Range DNA Language Model [70.69095062674944]
ハイブリッドトランスフォーマー-マンバ2アーキテクチャを組み込んだデコーダのみのDNA言語モデルであるHybriDNAを提案する。このハイブリッド設計により、HybriDNAはDNA配列を最大131kbまで効率よく単一のヌクレオチド分解能で処理できる。 HybriDNAは、BEND、GUE、LRBベンチマークから算出された33のDNA理解データセットにまたがる最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-02-15T14:23:43Z)
Adversarial Examples for DNA Classification [0.0]
DNAシークエンス分類のためのテキスト分類によく使われる攻撃アルゴリズムを適用した。文字,単語,文レベルでのDNA配列分類に対する種々の攻撃方法の影響を評価した。
論文参考訳（メタデータ） (2024-09-29T21:20:57Z)
CGRclust: Chaos Game Representation for Twin Contrastive Clustering of Unlabelled DNA Sequences [0.0]
CGRclustは、DNA配列のChaos Game Representations(CGR)と畳み込みニューラルネットワーク(CNN)を組み合わせた、教師なし双対のコントラストクラスタリングの新規な組み合わせである CGRclustは、DNA配列のクラスタリングデータセットのイメージ分類に教師なし学習を使用する最初の方法である。 CGRclustは、魚類のミトコンドリアDNAゲノムで検査された4つの分類レベル全てで81.70%を超える唯一の方法である。
論文参考訳（メタデータ） (2024-07-01T23:24:05Z)
VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文参考訳（メタデータ） (2024-05-13T20:15:03Z)
DiscDiff: Latent Diffusion Model for DNA Sequence Generation [4.946462450157714]
本稿では, 離散的なDNA配列を生成するための遅延拡散モデルであるDisdisDiffと, これらの配列を洗練するためのポストトレーニングアルゴリズムであるAbsorb-Escapeを紹介する。 EPD-GenDNAは15種から16万のユニークな配列を含む、DNA生成のための最初の包括的で多種のデータセットである。本研究は,遺伝子治療やタンパク質生産に影響を及ぼす可能性のあるDNA生成モデルの構築を期待する。
論文参考訳（メタデータ） (2024-02-08T22:06:55Z)
BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文参考訳（メタデータ） (2023-11-21T12:34:00Z)
BarcodeBERT: Transformers for Biodiversity Analysis [19.082058886309028]
本稿では,生物多様性解析のための自己管理手法BarcodeBERTを提案する。大規模なDNAバーコードデータセットで事前訓練されたBarcodeBERTは、複数の下流分類タスクでDNABERTとDNABERT-2を上回っている。
論文参考訳（メタデータ） (2023-11-04T13:25:49Z)
Embed-Search-Align: DNA Sequence Alignment using Transformer Models [2.48439258515764]
我々はTransformerモデルのシーケンスアライメントタスクを"Embed-Search-Align"タスクとしてフレーミングすることでギャップを埋める。新規なレファレンスフリーDNA埋め込みモデルは、共有ベクトル空間に投影される読み取りおよび参照フラグメントの埋め込みを生成する。 DNA-ESAは、BowtieやBWA-Memといった従来の手法に匹敵する、ヒトゲノム(3gb)に250長の読み書きを合わせると99%正確である。
論文参考訳（メタデータ） (2023-09-20T06:30:39Z)
DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence Analysis Tasks [14.931476374660944]
DNAGPTは、全哺乳類から200億以上の塩基対をトレーニングした、一般的なDNA事前学習モデルである。古典的なGPTモデルをバイナリ分類タスク、数値回帰タスク、包括的トークン言語で拡張することにより、DNAGPTは汎用的なDNA解析タスクを処理できる。
論文参考訳（メタデータ） (2023-07-11T06:30:43Z)
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。 Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文参考訳（メタデータ） (2023-06-27T20:46:34Z)
Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文参考訳（メタデータ） (2022-08-10T13:30:58Z)
rfPhen2Gen: A machine learning based association study of brain imaging phenotypes to genotypes [71.1144397510333]
56個の脳画像QTを用いてSNPを予測する機械学習モデルを学習した。アルツハイマー病(AD)リスク遺伝子APOEのSNPは、ラスソとランダムな森林に対して最低のRMSEを有していた。ランダム・フォレストは、線形モデルによって優先順位付けされなかったが、脳関連疾患と関連があることが知られている追加のSNPを特定した。
論文参考訳（メタデータ） (2022-03-31T20:15:22Z)
Multi-modal Self-supervised Pre-training for Regulatory Genome Across Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文参考訳（メタデータ） (2021-10-11T12:48:44Z)
A deep learning classifier for local ancestry inference [63.8376359764052]
局所祖先推論は、個人のゲノムの各セグメントの祖先を特定する。我々は,エンコーダ・デコーダアーキテクチャを備えた深層畳み込みニューラルネットワークを用いた新しいLAIツールを開発した。我々は,既存のゴールド標準ツール RFMix とほぼ同等の精度で,ゼロショットタスクとしてアドミキシングを学習できることを実証した。
論文参考訳（メタデータ） (2020-11-04T00:42:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。