論文の概要: DNACHUNKER: Learnable Tokenization for DNA Language Models
- arxiv url: http://arxiv.org/abs/2601.03019v1
- Date: Tue, 06 Jan 2026 13:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.958122
- Title: DNACHUNKER: Learnable Tokenization for DNA Language Models
- Title(参考訳): DNACHUNKER:DNA言語モデルのための学習可能なトークン化
- Authors: Taewon Kim, Jihwan Shin, Hyomin Kim, Youngmok Jung, Jonhoon Lee, Won-Chul Lee, Insu Han, Sungsoo Ahn,
- Abstract要約: 本研究では,学習可能な動的DNAトークン化機構を統合したDNACHUNKERを提案する。
我々はヒト基準ゲノム(HG38)を用いてDNACHUNKERの性能を訓練し、ヌクレオチドトランスフォーマーおよびゲノムベンチマークで試験することで、DNACHUNKERの性能を実証する。
- 参考スコア(独自算出の注目度): 27.919576076056146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: DNA language models have emerged as powerful tools for decoding the complex language of DNA sequences. However, the performance of these models is heavily affected by their tokenization strategy, i.e., a method used to parse DNA sequences into a shorter sequence of chunks. In this work, we propose DNACHUNKER, which integrates a learnable dynamic DNA tokenization mechanism and is trained as a masked language model. Adopting the dynamic chunking procedure proposed by H-Net, our model learns to segment sequences into variable-length chunks. This dynamic chunking offers two key advantages: it's resilient to shifts and mutations in the DNA, and it allocates more detail to important functional areas. We demonstrate the performance of DNACHUNKER by training it on the human reference genome (HG38) and testing it on the Nucleotide Transformer and Genomic benchmarks. Further ablative experiments reveal that DNACHUNKER learns tokenization that grasps biological grammar and uses smaller chunks to preserve detail in important functional elements such as promoters and exons, while using larger chunks for repetitive, redundant regions.
- Abstract(参考訳): DNA言語モデルは、DNA配列の複雑な言語をデコードするための強力なツールとして登場した。
しかし、これらのモデルの性能は、そのトークン化戦略、すなわち、DNA配列を短いチャンク配列に解析する手法に大きく影響されている。
本研究では,学習可能な動的DNAトークン化機構を統合し,マスキング言語モデルとして訓練されたDNACHUNKERを提案する。
H-Netが提案する動的チャンキング手法を応用して,本モデルでは,配列を可変長チャンクに分割する方法を学習する。
この動的チャンキングには2つの大きな利点がある:DNAのシフトや突然変異に耐性があり、重要な機能領域にさらに詳細を割り当てる。
我々はヒト基準ゲノム(HG38)を用いてDNACHUNKERの性能を訓練し、ヌクレオチドトランスフォーマーおよびゲノムベンチマークで試験することで、DNACHUNKERの性能を実証する。
さらに、DNACHUNKERは、生物学的文法を把握し、より小さなチャンクを使用してプロモーターやエキソンなどの重要な機能要素の細部を保存し、反復的かつ冗長な領域により大きなチャンクを使用する。
関連論文リスト
- MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging [65.07273789940116]
本稿では,動的ゲノミクストークンと潜在トランスフォーマーをコンテキスト対応事前学習タスクで協調的に最適化する階層型アーキテクチャを提案する。
MergeDNAは3つの人気のあるDNAベンチマークと、微調整やゼロショット評価を伴う複数のマルチオミクスタスクにおいて優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-17T19:27:41Z) - HybriDNA: A Hybrid Transformer-Mamba2 Long-Range DNA Language Model [70.69095062674944]
ハイブリッドトランスフォーマー-マンバ2アーキテクチャを組み込んだデコーダのみのDNA言語モデルであるHybriDNAを提案する。
このハイブリッド設計により、HybriDNAはDNA配列を最大131kbまで効率よく単一のヌクレオチド分解能で処理できる。
HybriDNAは、BEND、GUE、LRBベンチマークから算出された33のDNA理解データセットにまたがる最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-15T14:23:43Z) - Model Decides How to Tokenize: Adaptive DNA Sequence Tokenization with MxDNA [44.630039477717624]
MxDNAは、モデルが段階的に有効なDNAトークン化戦略を自律的に学習する新しいフレームワークである。
我々は、MxDNAが従来の方法とは異なるユニークなトークン化戦略を学習し、自己教師付き事前学習中にトークンレベルでゲノム機能をキャプチャすることを示す。
論文 参考訳(メタデータ) (2024-12-18T10:55:43Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。