論文の概要: JanusDNA: A Powerful Bi-directional Hybrid DNA Foundation Model
- arxiv url: http://arxiv.org/abs/2505.17257v1
- Date: Thu, 22 May 2025 20:10:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.680722
- Title: JanusDNA: A Powerful Bi-directional Hybrid DNA Foundation Model
- Title(参考訳): JanusDNA:強力な双方向ハイブリッドDNA基盤モデル
- Authors: Qihao Duan, Bingding Huang, Zhenqiao Song, Irina Lehmann, Lei Gu, Roland Eils, Benjamin Wild,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理に革命をもたらし、他のシーケンシャルなデータタイプにもますます適用されてきている。
我々は、新しい事前学習パラダイムに基づいて構築された、最初の双方向DNA基盤モデルであるJanusDNAを紹介する。
JanusDNAは、1つの80GB GPU上で1つのヌクレオチド分解能で100万塩基対を処理する。
- 参考スコア(独自算出の注目度): 1.6128508494592848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have revolutionized natural language processing and are increasingly applied to other sequential data types, including genetic sequences. However, adapting LLMs to genomics presents significant challenges. Capturing complex genomic interactions requires modeling long-range dependencies within DNA sequences, where interactions often span over 10,000 base pairs, even within a single gene, posing substantial computational burdens under conventional model architectures and training paradigms. Moreover, standard LLM training approaches are suboptimal for DNA: autoregressive training, while efficient, supports only unidirectional understanding. However, DNA is inherently bidirectional, e.g., bidirectional promoters regulate transcription in both directions and account for nearly 11% of human gene expression. Masked language models (MLMs) allow bidirectional understanding but are inefficient, as only masked tokens contribute to the loss per step. To address these limitations, we introduce JanusDNA, the first bidirectional DNA foundation model built upon a novel pretraining paradigm that combines the optimization efficiency of autoregressive modeling with the bidirectional comprehension of masked modeling. JanusDNA adopts a hybrid Mamba, Attention and Mixture of Experts (MoE) architecture, combining long-range modeling of Attention with efficient sequential learning of Mamba. MoE layers further scale model capacity via sparse activation while keeping computational cost low. Notably, JanusDNA processes up to 1 million base pairs at single nucleotide resolution on a single 80GB GPU. Extensive experiments and ablations show JanusDNA achieves new SOTA results on three genomic representation benchmarks, outperforming models with 250x more activated parameters. Code: https://github.com/Qihao-Duan/JanusDNA
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理に革命をもたらし、遺伝的配列を含む他のシーケンシャルなデータタイプにもますます適用されている。
しかし、LLMをゲノミクスに適用することは大きな課題である。
複雑なゲノム相互作用を捉えるには、DNA配列内の長距離依存関係をモデル化する必要がある。
自己回帰訓練は効率的ではあるが、一方向理解のみをサポートする。
しかし、DNAは本質的に双方向であり、例えば、双方向プロモーターは両方向の転写を調節し、ヒト遺伝子発現の約11%を占める。
マスク付き言語モデル(MLM)は双方向の理解を可能にするが、マスク付きトークンだけがステップごとの損失に寄与するため、非効率である。
これらの制約に対処するために、自動回帰モデリングの最適化効率とマスク付きモデリングの双方向理解を組み合わせた、新しい事前学習パラダイムに基づいて構築された最初の双方向DNA基盤モデルであるJanusDNAを紹介する。
JanusDNA は、Mamba, Attention and Mixture of Experts (MoE) アーキテクチャを採用した。
MoE層はさらに、計算コストを低く保ちながらスパースアクティベーションによってモデルの容量を拡大する。
特に、JanusDNAは1つの80GBのGPU上で1つのヌクレオチド解像度で100万塩基対を処理する。
大規模な実験と改善により、JanusDNAは3つのゲノム表現ベンチマークで新しいSOTA結果を得ることができ、250倍の活性パラメータを持つモデルよりも優れていた。
コード:https://github.com/Qihao-Duan/JanusDNA
関連論文リスト
- Bidirectional Mamba for Single-Cell Data: Efficient Context Learning with Biological Fidelity [0.39945675027960637]
我々は、状態空間モデリングに基づいて構築された単一セル転写学のスケーラブルで効率的な基礎モデルであるGeneMambaを紹介した。
GeneMambaは、双方向の遺伝子コンテキストを線形時間複雑性でキャプチャし、トランスフォーマーベースラインよりもかなりの計算的ゲインを提供する。
我々は、マルチバッチ統合、細胞型アノテーション、遺伝子-遺伝子相関など様々なタスクにまたがってGeneMambaを評価し、高い性能、解釈可能性、堅牢性を示す。
論文 参考訳(メタデータ) (2025-04-22T20:34:47Z) - Regulatory DNA sequence Design with Reinforcement Learning [56.20290878358356]
本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。
2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
論文 参考訳(メタデータ) (2025-03-11T02:33:33Z) - HybriDNA: A Hybrid Transformer-Mamba2 Long-Range DNA Language Model [70.69095062674944]
ハイブリッドトランスフォーマー-マンバ2アーキテクチャを組み込んだデコーダのみのDNA言語モデルであるHybriDNAを提案する。
このハイブリッド設計により、HybriDNAはDNA配列を最大131kbまで効率よく単一のヌクレオチド分解能で処理できる。
HybriDNAは、BEND、GUE、LRBベンチマークから算出された33のDNA理解データセットにまたがる最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-15T14:23:43Z) - Model Decides How to Tokenize: Adaptive DNA Sequence Tokenization with MxDNA [44.630039477717624]
MxDNAは、モデルが段階的に有効なDNAトークン化戦略を自律的に学習する新しいフレームワークである。
我々は、MxDNAが従来の方法とは異なるユニークなトークン化戦略を学習し、自己教師付き事前学習中にトークンレベルでゲノム機能をキャプチャすることを示す。
論文 参考訳(メタデータ) (2024-12-18T10:55:43Z) - DNAHLM -- DNA sequence and Human Language mixed large language Model [0.0]
本稿では、GPT-2ネットワーク上でトレーニングされた事前学習モデルについて紹介し、DNA配列と英文の組み合わせについて述べる。
次に、分類やその他の下流タスクをAlpacaフォーマット命令データに変換し、命令の微調整を行う。
このモデルはDNA関連ゼロショット予測およびマルチタスク応用においてその効果を実証している。
論文 参考訳(メタデータ) (2024-10-22T11:51:09Z) - Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling [36.37643634126816]
長範囲のトークン相互作用、ゲノムの上流および下流領域の影響、およびDNAの逆相補性について研究した。
本稿では,長距離マンバブロックから構築したこれらの課題を動機とするアーキテクチャを提案する。
RC同種二方向長範囲DNA言語モデルの最初のファミリーであるCaduceusの基盤として,MambaDNAを使用している。
論文 参考訳(メタデータ) (2024-03-05T01:42:51Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。