論文の概要: dnaHNet: A Scalable and Hierarchical Foundation Model for Genomic Sequence Learning
- arxiv url: http://arxiv.org/abs/2602.10603v1
- Date: Wed, 11 Feb 2026 07:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.547678
- Title: dnaHNet: A Scalable and Hierarchical Foundation Model for Genomic Sequence Learning
- Title(参考訳): dnaHNet:ゲノム配列学習のためのスケーラブルで階層的な基礎モデル
- Authors: Arnav Shah, Junzhe Li, Parsa Idehpour, Adibvafa Fallahpour, Brandon Wang, Sukjun Hwang, Bo Wang, Patrick D. Hsu, Hani Goodarzi, Albert Gu,
- Abstract要約: dnaHNetはトークン化なしの自己回帰モデルであり、ゲノム配列をエンドツーエンドにセグメント化し、モデル化する。
DNAHNetは、原核生物ゲノムに基づいて、スケーリングと効率においてStripedHyena2などの主要なアーキテクチャより優れている。
ゼロショットタスクでは、DNAHNetはタンパク質の多様性の適合性と遺伝子の本質を予測する上で優れた性能を達成し、監督なしで階層的な生物学的構造を自動的に発見する。
- 参考スコア(独自算出の注目度): 16.347455063831067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Genomic foundation models have the potential to decode DNA syntax, yet face a fundamental tradeoff in their input representation. Standard fixed-vocabulary tokenizers fragment biologically meaningful motifs such as codons and regulatory elements, while nucleotide-level models preserve biological coherence but incur prohibitive computational costs for long contexts. We introduce dnaHNet, a state-of-the-art tokenizer-free autoregressive model that segments and models genomic sequences end-to-end. Using a differentiable dynamic chunking mechanism, dnaHNet compresses raw nucleotides into latent tokens adaptively, balancing compression with predictive accuracy. Pretrained on prokaryotic genomes, dnaHNet outperforms leading architectures including StripedHyena2 in scaling and efficiency. This recursive chunking yields quadratic FLOP reductions, enabling $>3 \times$ inference speedup over Transformers. On zero-shot tasks, dnaHNet achieves superior performance in predicting protein variant fitness and gene essentiality, while automatically discovering hierarchical biological structures without supervision. These results establish dnaHNet as a scalable, interpretable framework for next-generation genomic modeling.
- Abstract(参考訳): ゲノム基盤モデルは、DNA構文をデコードする可能性があるが、入力表現の根本的なトレードオフに直面している。
標準的な固定語彙トークン化剤は、コドンや規制要素のような生物学的に意味のあるモチーフを断片化する一方、ヌクレオチドレベルのモデルは生物学的コヒーレンスを保ちながら、長い文脈で計算コストを抑える。
DNAHNetは最先端のプロテタイザフリー自動回帰モデルであり、ゲノム配列をエンドツーエンドにセグメント化し、モデル化する。
識別可能な動的チャンキング機構を使用して、dnaHNetは生ヌクレオチドを潜在トークンに適応的に圧縮し、圧縮と予測精度のバランスをとる。
DNAHNetは、原核生物ゲノムに基づいて、スケーリングと効率においてStripedHyena2などの主要なアーキテクチャより優れている。
この再帰的チャンキングは2次FLOP還元をもたらし、変換子に対する$>3 \times$推論スピードアップを可能にする。
ゼロショットタスクでは、DNAHNetはタンパク質の多様性の適合性と遺伝子の本質を予測する上で優れた性能を達成し、監督なしで階層的な生物学的構造を自動的に発見する。
これらの結果は、次世代ゲノムモデリングのためのスケーラブルで解釈可能なフレームワークとしてdnaHNetを確立する。
関連論文リスト
- Rethinking Genomic Modeling Through Optical Character Recognition [23.555844091817956]
我々は、光学文字認識(OCR)スタイルの文書理解としてゲノムモデリングを再構成する視覚ベースのフレームワークであるOCRを提案する。
光DNAは構造化された視覚レイアウトにDNAをレンダリングし、OCR対応の視覚言語モデルをエンコーダとエンコーダで訓練し、そこでエンコーダは高速圧縮のためにコンパクトで再構成可能な視覚トークンを生成する。
論文 参考訳(メタデータ) (2026-02-02T12:12:00Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。