論文の概要: LDARNet: DNA Adaptive Representation Network with Learnable Tokenization for Genomic Modeling
- arxiv url: http://arxiv.org/abs/2606.04552v1
- Date: Wed, 03 Jun 2026 07:38:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.610781
- Title: LDARNet: DNA Adaptive Representation Network with Learnable Tokenization for Genomic Modeling
- Title(参考訳): LDARNet:ゲノムモデリングのための学習可能なトークン化を用いたDNA適応表現ネットワーク
- Authors: Daria Ledneva, Denis Kuznetsov,
- Abstract要約: 本稿では,H-Netスタイルの動的チャンキングを自己回帰生成からマスク付き言語モデリングに適応させる階層的ゲノム基盤モデルLDARNetを提案する。
LDARNetは、Nucleotide TransformerとGenomic Benchmarksスイートから27のタスクを微調整し、コンパクトモデルと5つのヒストン修正タスクの最先端結果の間で11/18の勝利を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Genomic foundation models increasingly adopt large language model architectures, yet almost universally rely on fixed tokenization schemes such as $k$-mers, BPE, or single nucleotides, which impose arbitrary sequence boundaries that may obscure biologically relevant structure. We present LDARNet, a 120M-parameter hierarchical genomic foundation model that adapts H-Net-style dynamic chunking from autoregressive generation to masked language modeling, combining BiMamba-2 state-space layers with local attention, bidirectional routing, and a ratio-based regularizer to induce adaptive token boundaries without supervision. Fine-tuned on 27 tasks from the Nucleotide Transformer and Genomic Benchmarks suites, LDARNet achieves 11/18 wins among compact models ($<$300M parameters) and state-of-the-art results on 5 histone modification tasks, outperforming models up to 20$\times$ larger. A FLOPs-matched controlled experiment isolates learned routing as the source of these gains: learned boundaries beat fixed-grid boundaries by up to 14 percentage points on histone tasks at identical compute. Nucleotide-resolution analysis further shows that the learned boundaries align with canonical promoter motifs and splice junctions without supervision, providing a biological interpretation for adaptive tokenization in genomic foundation models.
- Abstract(参考訳): ゲノム基盤モデルは、より大きな言語モデルアーキテクチャを採用する傾向にあるが、ほとんど普遍的に$k$-mers、BPE、単一ヌクレオチドといった固定トークン化スキームに依存しており、生物学的に関係のない構造を持つ任意のシーケンス境界を課している。
自己回帰生成からマスク付き言語モデリングへのH-Netスタイルの動的チャンキングを適応した120Mパラメータ階層型ゲノム基盤モデルであるLDARNetについて述べる。
LDARNetは、Nucleotide TransformerとGenomic Benchmarksスイートから27のタスクを微調整し、コンパクトモデル($300Mパラメータ)と5つのヒストン修正タスクの最先端結果の11/18の勝利を達成し、最大20$\times$大となる。
FLOPが整合した制御実験は、学習されたルーティングをこれらのゲインの源として分離する。学習された境界は、同じ計算でヒストンタスクで最大14パーセントの差で固定グリッドの境界を破る。
ヌクレオチド分解分析により、学習された境界は、教師なしの標準プロモーターモチーフやスプライスジャンクションと一致し、ゲノム基盤モデルにおける適応トークン化の生物学的解釈を提供する。
関連論文リスト
- Reinforcement Learning for Microcanonical Graph Ensemble with Assortativity Constraints [1.0896567381206717]
ネットワーク構造がどのように関数を決定するかは基本的な問題であり、正確に制御された構造特性を持つグラフアンサンブルで調べることができる。
本稿では,Deep Microcanonical Graph Generator (DMGG)について紹介する。
論文 参考訳(メタデータ) (2026-05-22T06:57:41Z) - dnaHNet: A Scalable and Hierarchical Foundation Model for Genomic Sequence Learning [16.347455063831067]
dnaHNetはトークン化なしの自己回帰モデルであり、ゲノム配列をエンドツーエンドにセグメント化し、モデル化する。
DNAHNetは、原核生物ゲノムに基づいて、スケーリングと効率においてStripedHyena2などの主要なアーキテクチャより優れている。
ゼロショットタスクでは、DNAHNetはタンパク質の多様性の適合性と遺伝子の本質を予測する上で優れた性能を達成し、監督なしで階層的な生物学的構造を自動的に発見する。
論文 参考訳(メタデータ) (2026-02-11T07:48:21Z) - Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - ReDiSC: A Reparameterized Masked Diffusion Model for Scalable Node Classification with Structured Predictions [64.17845687013434]
本稿では,構造化ノード分類のための構造拡散モデルであるReDiSCを提案する。
本稿では,ReDiSCが最先端のGNN,ラベル伝搬,拡散ベースラインと比較して,優れた,あるいは高い競争力を発揮することを示す。
特にReDiSCは、従来の構造化拡散法が計算制約によって失敗する大規模データセットに効果的にスケールする。
論文 参考訳(メタデータ) (2025-07-19T04:46:53Z) - A Lightweight Gradient-based Causal Discovery Framework with Applications to Complex Industrial Processes [5.351842005323824]
グラディエント正規化に基づくニューラルグラガー因果性(GRNGC)を提案する。
GRNGCは1つの時系列予測モデルのみを必要とし、モデルの入力と出力の勾配に$L_1$正規化を適用して、グランガー因果関係を推測する。
DREAM、Lorenz-96、fMRI、CausalTimeの数値シミュレーションにより、GRNGCは既存のベースラインよりも優れ、計算オーバーヘッドを大幅に削減することが示された。
論文 参考訳(メタデータ) (2025-07-15T10:35:29Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - The Heterogeneity Hypothesis: Finding Layer-Wise Differentiated Network
Architectures [179.66117325866585]
我々は、通常見過ごされる設計空間、すなわち事前定義されたネットワークのチャネル構成を調整することを検討する。
この調整は、拡張ベースラインネットワークを縮小することで実現でき、性能が向上する。
画像分類、視覚追跡、画像復元のための様々なネットワークとデータセットで実験を行う。
論文 参考訳(メタデータ) (2020-06-29T17:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。