論文の概要: SPACE: Your Genomic Profile Predictor is a Powerful DNA Foundation Model
- arxiv url: http://arxiv.org/abs/2506.01833v1
- Date: Mon, 02 Jun 2025 16:23:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.322063
- Title: SPACE: Your Genomic Profile Predictor is a Powerful DNA Foundation Model
- Title(参考訳): SPACE:ゲノムプロファイル予測は強力なDNA基盤モデル
- Authors: Zhao Yang, Jiwei Zhu, Bing Su,
- Abstract要約: ゲノムプロファイル予測のための教師付きトレーニングは、純粋なシークエンス事前学習の代替としてより効果的であることを示す。
我々のモデルは最先端のパフォーマンスを達成し、教師付きゲノムプロファイルで訓練されたDNAモデルが強力なDNA表現学習者として機能することを確立した。
- 参考スコア(独自算出の注目度): 13.059484204657586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the success of unsupervised pre-training paradigms, researchers have applied these approaches to DNA pre-training. However, we argue that these approaches alone yield suboptimal results because pure DNA sequences lack sufficient information, since their functions are regulated by genomic profiles like chromatin accessibility. Here, we demonstrate that supervised training for genomic profile prediction serves as a more effective alternative to pure sequence pre-training. Furthermore, considering the multi-species and multi-profile nature of genomic profile prediction, we introduce our $\textbf{S}$pecies-$\textbf{P}$rofile $\textbf{A}$daptive $\textbf{C}$ollaborative $\textbf{E}$xperts (SPACE) that leverages Mixture of Experts (MoE) to better capture the relationships between DNA sequences across different species and genomic profiles, thereby learning more effective DNA representations. Through extensive experiments across various tasks, our model achieves state-of-the-art performance, establishing that DNA models trained with supervised genomic profiles serve as powerful DNA representation learners. The code is available at https://github.com/ZhuJiwei111/SPACE.
- Abstract(参考訳): 教師なし事前学習のパラダイムの成功に触発されて、研究者はこれらのアプローチをDNA事前学習に適用した。
しかし、これらのアプローチだけでは、純粋なDNA配列は、クロマチンアクセシビリティのようなゲノムプロファイルによって制御されるため、十分な情報がないため、最適以下の結果が得られると論じる。
ここでは、ゲノムプロファイル予測のための教師付きトレーニングが、純粋なシークエンス事前学習の代替となることを実証する。
さらに、多種多種多様なゲノムプロファイル予測の性質を考慮すると、我々の$\textbf{S}$pecies-$\textbf{P}$rofile $\textbf{A}$daptive $\textbf{C}$ollaborative $\textbf{E}$xperts (SPACE)を紹介します。
様々なタスクにわたる広範な実験を通じて、我々のモデルは最先端のパフォーマンスを達成し、教師付きゲノムプロファイルで訓練されたDNAモデルが強力なDNA表現学習者として機能することを確立した。
コードはhttps://github.com/ZhuJiwei111/SPACEで入手できる。
関連論文リスト
- Learning Genomic Structure from $k$-mers [2.07180164747172]
コントラスト学習を用いて読み出しデータを解析する手法を提案する。
エンコーダモデルは、同じゲノム領域から配列をまとめる埋め込みを生成するために訓練される。
モデルはまた、読み取りデータに基づいて完全に自己教師された訓練も可能で、完全なゲノム組立を構築することなく分析が可能である。
論文 参考訳(メタデータ) (2025-05-22T13:46:18Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Model Decides How to Tokenize: Adaptive DNA Sequence Tokenization with MxDNA [44.630039477717624]
MxDNAは、モデルが段階的に有効なDNAトークン化戦略を自律的に学習する新しいフレームワークである。
我々は、MxDNAが従来の方法とは異なるユニークなトークン化戦略を学習し、自己教師付き事前学習中にトークンレベルでゲノム機能をキャプチャすることを示す。
論文 参考訳(メタデータ) (2024-12-18T10:55:43Z) - DNABERT-S: Pioneering Species Differentiation with Species-Aware DNA Embeddings [7.822348354050447]
DNABERT-S(DNABERT-S)は,異なる種のDNA配列を自然にクラスターし,分離するために,種認識の埋め込みを開発するゲノムモデルである。
23の多様なデータセットの創発的な結果は、特に現実的なラベルスカースシナリオにおいて、DNABERT-Sの有効性を示している。
論文 参考訳(メタデータ) (2024-02-13T20:21:29Z) - DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence
Analysis Tasks [14.931476374660944]
DNAGPTは、全哺乳類から200億以上の塩基対をトレーニングした、一般的なDNA事前学習モデルである。
古典的なGPTモデルをバイナリ分類タスク、数値回帰タスク、包括的トークン言語で拡張することにより、DNAGPTは汎用的なDNA解析タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-11T06:30:43Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。