論文の概要: JEPA-DNA: Grounding Genomic Foundation Models through Joint-Embedding Predictive Architectures
- arxiv url: http://arxiv.org/abs/2602.17162v1
- Date: Thu, 19 Feb 2026 08:20:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.808682
- Title: JEPA-DNA: Grounding Genomic Foundation Models through Joint-Embedding Predictive Architectures
- Title(参考訳): JEPA-DNA: 共同埋め込み予測アーキテクチャによるゲノム基盤モデルの構築
- Authors: Ariel Larey, Elay Dahan, Amit Bleiweiss, Raizy Kellerman, Guy Leib, Omri Nayshool, Dan Ofer, Tal Zinger, Dan Dominissini, Gideon Rechavi, Nicole Bussola, Simon Lee, Shane O'Connell, Dung Hoang, Marissa Wirth, Alexander W. Charney, Nati Daniel, Yoli Shavit,
- Abstract要約: JEPA-DNAは、JEP-Embedding Predictive Architectureと従来の生成目的を統合した、新しい事前トレーニングフレームワークである。
また、JEPA-DNAは、生成のみのベースラインに比べて、教師付きタスクやゼロショットタスクにおいて、常に優れた性能を示すことを示す。
より堅牢で生物学的に根ざした表現を提供することにより、JEPA-DNAはゲノムアルファベットだけでなく、配列の根底にある機能論理も理解する基盤モデルへのスケーラブルな経路を提供する。
- 参考スコア(独自算出の注目度): 28.568482545119917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Genomic Foundation Models (GFMs) have largely relied on Masked Language Modeling (MLM) or Next Token Prediction (NTP) to learn the language of life. While these paradigms excel at capturing local genomic syntax and fine-grained motif patterns, they often fail to capture the broader functional context, resulting in representations that lack a global biological perspective. We introduce JEPA-DNA, a novel pre-training framework that integrates the Joint-Embedding Predictive Architecture (JEPA) with traditional generative objectives. JEPA-DNA introduces latent grounding by coupling token-level recovery with a predictive objective in the latent space by supervising a CLS token. This forces the model to predict the high-level functional embeddings of masked genomic segments rather than focusing solely on individual nucleotides. JEPA-DNA extends both NTP and MLM paradigms and can be deployed either as a standalone from-scratch objective or as a continual pre-training enhancement for existing GFMs. Our evaluations across a diverse suite of genomic benchmarks demonstrate that JEPA-DNA consistently yields superior performance in supervised and zero-shot tasks compared to generative-only baselines. By providing a more robust and biologically grounded representation, JEPA-DNA offers a scalable path toward foundation models that understand not only the genomic alphabet, but also the underlying functional logic of the sequence.
- Abstract(参考訳): Genomic Foundation Models (GFMs) は、生命の言語を学ぶために、Masked Language Modeling (MLM) やNext Token Prediction (NTP) に大きく依存している。
これらのパラダイムは、局所的なゲノム構文ときめ細かいモチーフパターンを捉えるのに優れているが、より広範な機能的文脈を捉えることに失敗し、大域的な生物学的視点を欠く表現をもたらす。
本稿ではJEPA-DNAについて紹介する。JEPA-DNAはJEPA(Joint-Embedding Predictive Architecture)と従来の生成目的を統合した新しい事前学習フレームワークである。
JEPA-DNAは、CLSトークンを監督することにより、潜在空間における予測目標とトークンレベルのリカバリを結合することで潜伏基盤を導入する。
これにより、モデルは個々のヌクレオチドにのみ焦点をあてるのではなく、マスキングされたゲノムセグメントの高レベルの機能的埋め込みを予測せざるを得なくなる。
JEPA-DNA は NTP と MLM の両方のパラダイムを拡張しており、スタンドアロンのin-scratch オブジェクトとして、または既存の GFM の継続事前トレーニング拡張としてデプロイすることができる。
多様なゲノムベンチマークを用いて評価した結果,JEPA-DNAは,ジェネレーティブのみのベースラインに比べて,教師付きタスクやゼロショットタスクにおいて常に優れた性能を発揮することが示された。
より堅牢で生物学的に根ざした表現を提供することにより、JEPA-DNAはゲノムアルファベットだけでなく、配列の根底にある機能論理も理解する基盤モデルへのスケーラブルな経路を提供する。
関連論文リスト
- UniGenX: a unified generative foundation model that couples sequence, structure and function to accelerate scientific design across proteins, molecules and materials [62.72989417755985]
自然系における関数の統一生成モデルUniGenXを提案する。
UniGenXはシンボルトークンと数値トークンの混合ストリームとして異種入力を表す。
ドメイン間のファンクション・アウェア・ジェネレーションに対して、最先端または競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-09T16:43:07Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - DART-Eval: A Comprehensive DNA Language Model Evaluation Benchmark on Regulatory DNA [2.543784712990392]
大規模なゲノムDNA言語モデル(DNALM)は、多様なDNA要素の一般化可能な表現を学習することを目的としている。
本ベンチマークでは, 機能的配列の特徴探索, 細胞型特異的制御活性の予測, 遺伝的変異の影響の予測など, 生物学的に有意義な下流課題を対象としている。
論文 参考訳(メタデータ) (2024-12-06T21:23:35Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。