論文の概要: MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging
- arxiv url: http://arxiv.org/abs/2511.14806v1
- Date: Mon, 17 Nov 2025 19:27:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.470476
- Title: MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging
- Title(参考訳): MergeDNA:トークンマージによる動的トークン化を用いたコンテキスト認識ゲノムモデリング
- Authors: Siyuan Li, Kai Yu, Anna Wang, Zicheng Liu, Chang Yu, Jingbo Zhou, Qirong Yang, Yucheng Guo, Xiaoming Zhang, Stan Z. Li,
- Abstract要約: 本稿では,動的ゲノミクストークンと潜在トランスフォーマーをコンテキスト対応事前学習タスクで協調的に最適化する階層型アーキテクチャを提案する。
MergeDNAは3つの人気のあるDNAベンチマークと、微調整やゼロショット評価を伴う複数のマルチオミクスタスクにおいて優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 65.07273789940116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling genomic sequences faces two unsolved challenges: the information density varies widely across different regions, while there is no clearly defined minimum vocabulary unit. Relying on either four primitive bases or independently designed DNA tokenizers, existing approaches with naive masked language modeling pre-training often fail to adapt to the varying complexities of genomic sequences. Leveraging Token Merging techniques, this paper introduces a hierarchical architecture that jointly optimizes a dynamic genomic tokenizer and latent Transformers with context-aware pre-training tasks. As for network structures, the tokenization module automatically chunks adjacent bases into words by stacking multiple layers of the differentiable token merging blocks with local-window constraints, then a Latent Encoder captures the global context of these merged words by full-attention blocks. Symmetrically employing a Latent Decoder and a Local Decoder, MergeDNA learns with two pre-training tasks: Merged Token Reconstruction simultaneously trains the dynamic tokenization module and adaptively filters important tokens, while Adaptive Masked Token Modeling learns to predict these filtered tokens to capture informative contents. Extensive experiments show that MergeDNA achieves superior performance on three popular DNA benchmarks and several multi-omics tasks with fine-tuning or zero-shot evaluation, outperforming typical tokenization methods and large-scale DNA foundation models.
- Abstract(参考訳): ゲノム配列のモデル化には2つの未解決課題がある: 情報密度は異なる領域で大きく異なるが、最小語彙単位は明確に定義されていない。
4つのプリミティブベースまたは独立に設計されたDNAトークンーザを頼りにしており、単純仮面言語モデリングによる既存のアプローチは、ゲノム配列の様々な複雑さに適応できないことが多い。
本稿では,Token Merging技術を活用することで,動的ゲノミクストークンと潜在トランスフォーマーを協調的に最適化する階層型アーキテクチャを提案する。
ネットワーク構造に関して、トークン化モジュールは、隣接するベースを単語に自動的にチャンクし、識別可能なトークンマージブロックの複数のレイヤをローカルウィンドウの制約で積み重ね、ラテントエンコーダがこれらのマージされた単語のグローバルコンテキストをフルアテンションブロックでキャプチャする。
Merged Token Reconstructionは動的トークン化モジュールを同時にトレーニングし、重要なトークンを適応的にフィルタする一方、Adaptive Masked Token Modelingは、これらのフィルタリングトークンを予測して情報的コンテンツをキャプチャする。
大規模な実験により、MergeDNAは3つの一般的なDNAベンチマークと、微調整やゼロショット評価、典型的なトークン化法や大規模なDNA基盤モデルよりも優れた性能を発揮することが示された。
関連論文リスト
- LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers [53.43862310647276]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れるが、事実の誤りに弱いままである。
本稿では,トークン型と最も影響力のあるトランスフォーマー層を整合させて実データ生成を改善する,トークン認識型コントラストデコーディング手法を提案する。
提案手法は追加のトレーニングやモデル修正を必要とせず,複数のLSMおよび各種ベンチマークの事実性を常に改善することを示す実験である。
論文 参考訳(メタデータ) (2025-07-06T14:35:43Z) - Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit [45.18582668677648]
大規模言語モデルにおいて,トークン化剤を移植するためのトレーニング不要な手法を提案する。
それぞれの語彙外トークンを,共有トークンの疎線形結合として近似する。
我々は,OMPがベースモデルの性能を最良にゼロショット保存できることを示す。
論文 参考訳(メタデータ) (2025-06-07T00:51:27Z) - Understanding the Natural Language of DNA using Encoder-Decoder Foundation Models with Byte-level Precision [26.107996342704915]
本稿では,Ensemble Nucleotide Byte-level-Decoder(ENBED)基盤モデルを提案する。
我々はMasked Language Modelingを用いて、参照ゲノム配列を用いて基礎モデルを事前訓練し、以下の下流タスクに適用する。
これらの課題のそれぞれにおいて、既存の最先端の成果と比較して顕著な改善が示される。
論文 参考訳(メタデータ) (2023-11-04T06:00:56Z) - TimeMAE: Self-Supervised Representations of Time Series with Decoupled
Masked Autoencoders [55.00904795497786]
トランスフォーマネットワークに基づく転送可能な時系列表現を学習するための,新しい自己教師型パラダイムであるTimeMAEを提案する。
TimeMAEは双方向符号化方式を用いて時系列の豊富な文脈表現を学習する。
新たに挿入されたマスク埋め込みによって生じる不一致を解消するため、分離されたオートエンコーダアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-01T08:33:16Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。