論文の概要: EvoLen: Evolution-Guided Tokenization for DNA Language Model
- arxiv url: http://arxiv.org/abs/2604.08698v1
- Date: Thu, 09 Apr 2026 18:41:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.536847
- Title: EvoLen: Evolution-Guided Tokenization for DNA Language Model
- Title(参考訳): EvoLen:DNA言語モデルのための進化誘導型トークン化
- Authors: Nan Huang, Xiaoxiao Zhou, Junxia Cui, Mario Tapia-Pacheco, Tiffany Amariuta, Yang Li, Jingbo Shang,
- Abstract要約: EvoLenは、進化的成層と長さ認識デコードを組み合わせることで、モチーフスケールの関数配列単位をよりよく保存するトークンライザである。
これらの結果は、トークン化が重要な帰納バイアスをもたらし、進化情報を組み込むことにより、より生物学的に意味があり、解釈可能なシーケンス表現が得られることを示している。
- 参考スコア(独自算出の注目度): 37.47818233836275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokens serve as the basic units of representation in DNA language models (DNALMs), yet their design remains underexplored. Unlike natural language, DNA lacks inherent token boundaries or predefined compositional rules, making tokenization a fundamental modeling decision rather than a naturally specified one. While existing approaches like byte-pair encoding (BPE) excel at capturing token structures that reflect human-generated linguistic regularities, DNA is organized by biological function and evolutionary constraint rather than linguistic convention. We argue that DNA tokenization should prioritize functional sequence patterns like regulatory motifs-short, recurring segments under evolutionary constraint and typically preserved across species. We incorporate evolutionary information directly into the tokenization process through EvoLen, a tokenizer that combines evolutionary stratification with length-aware decoding to better preserve motif-scale functional sequence units. EvoLen uses cross-species evolutionary signals to group DNA sequences, trains separate BPE tokenizers on each group, merges the resulting vocabularies via a rule prioritizing preserved patterns, and applies length-aware decoding with dynamic programming. Through controlled experiments, EvoLen improves the preservation of functional sequence patterns, differentiation across genomic contexts, and alignment with evolutionary constraint, while matching or outperforming standard BPE across diverse DNALM benchmarks. These results demonstrate that tokenization introduces a critical inductive bias and that incorporating evolutionary information yields more biologically meaningful and interpretable sequence representations.
- Abstract(参考訳): トークンはDNA言語モデル(DNALM)における表現の基本単位として機能するが、その設計は未解明のままである。
自然言語とは異なり、DNAには固有のトークン境界や事前に定義された構成規則がなく、トークン化は自然に指定されたものではなく、基本的なモデリング決定である。
バイトペアエンコーディング(BPE)のような既存のアプローチは、人間の生成する言語規則を反映したトークン構造を捉えるのに優れているが、DNAは言語慣習よりも生物学的機能と進化的制約によって組織されている。
DNAのトークン化は、進化的制約の下で繰り返し、典型的には種間で保存される、規制モチーフショートのような機能的配列パターンを優先すべきである、と我々は主張する。
エボレン(EvoLen)は、進化的成層化と長さ認識デコードを組み合わせて、モチーフスケールの関数配列単位をよりよく保存するトークン化装置である。
EvoLenは、DNA配列をグループ化し、BPEトークンを個別に訓練し、保存されたパターンを優先順位付けする規則を通し、結果の語彙をマージし、動的プログラミングに長さ認識デコーディングを適用する。
制御された実験を通じて、EvoLenは、機能配列パターンの保存、ゲノムコンテキスト間の分化、進化的制約との整合性の改善とともに、多様なDNALMベンチマークにおける標準BPEのマッチングや性能向上を実現している。
これらの結果は、トークン化が重要な帰納バイアスをもたらし、進化情報を組み込むことにより、より生物学的に意味があり、解釈可能なシーケンス表現が得られることを示している。
関連論文リスト
- BMFM-DNA: A SNP-aware DNA foundation model to capture variant effects [14.172782866715844]
テキストで訓練された大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて顕著な結果を示した。
DNAは、明確に定義された単語や一貫した文法が欠けているため、基本的に自然言語と異なる。
配列の変動、特にSNP(Single Nucleotide Polymorphisms)を効果的に統合する事前訓練基礎モデル
以上の結果から,DNALMに配列変化を組み込むことは,すべての微調整タスクの改善にみられる生物学的機能を把握するのに役立つことが示唆された。
論文 参考訳(メタデータ) (2025-06-26T13:56:32Z) - evoBPE: Evolutionary Protein Sequence Tokenization [3.4196611972116786]
現在のサブワードトークン化技術は主に自然言語処理のために開発されたが、タンパク質配列の複雑な構造と機能的特性を適切に表現できないことが多い。
本研究は、進化的突然変異パターンを配列分割に統合する新しいトークン化手法であるevoBPEを紹介する。
evoBPEは、タンパク質機能予測、構造モデリング、進化解析における機械学習応用の新しい可能性を開く。
論文 参考訳(メタデータ) (2025-03-11T19:19:48Z) - Regulatory DNA sequence Design with Reinforcement Learning [56.20290878358356]
本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。
2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
論文 参考訳(メタデータ) (2025-03-11T02:33:33Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Model Decides How to Tokenize: Adaptive DNA Sequence Tokenization with MxDNA [44.630039477717624]
MxDNAは、モデルが段階的に有効なDNAトークン化戦略を自律的に学習する新しいフレームワークである。
我々は、MxDNAが従来の方法とは異なるユニークなトークン化戦略を学習し、自己教師付き事前学習中にトークンレベルでゲノム機能をキャプチャすることを示す。
論文 参考訳(メタデータ) (2024-12-18T10:55:43Z) - Multi-modal Transfer Learning between Biological Foundation Models [2.6545450959042234]
そこで本研究では,DNA,RNA,タンパク質を結合するマルチモーダル特異的モデルを提案する。
我々のモデルはIsoFormerと呼ばれ、既存の手法よりも優れた差分転写表現を正確に予測できることを示します。
我々は、新しいマルチモーダル遺伝子表現アプローチの道を開くために、我々のモデルをオープンソース化した。
論文 参考訳(メタデータ) (2024-06-20T09:44:53Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。