論文の概要: Hybrid Tokenization Strategy for DNA Language Model using Byte Pair Encoding and K-MER Methods
- arxiv url: http://arxiv.org/abs/2507.18570v1
- Date: Thu, 24 Jul 2025 16:45:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:44.135017
- Title: Hybrid Tokenization Strategy for DNA Language Model using Byte Pair Encoding and K-MER Methods
- Title(参考訳): バイトペアエンコーディングとK-MER法を用いたDNA言語モデルのハイブリッド化戦略
- Authors: Ganesh Sapkota, Md Hasibur Rahman,
- Abstract要約: 従来のk-merトークン化は、局所的なDNA配列構造を捉えるのに効果的であるが、しばしば課題に直面している。
選択したBPEトークンを600のBPEサイクルで生成し,ユニークな6merトークンと組み合わせることを提案する。
このハイブリッドアプローチにより、バランスの取れたコンテキスト対応の語彙が保証され、モデルがショートパターンとロングパターンの両方をキャプチャできる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a novel hybrid tokenization strategy that enhances the performance of DNA Language Models (DLMs) by combining 6-mer tokenization with Byte Pair Encoding (BPE-600). Traditional k-mer tokenization is effective at capturing local DNA sequence structures but often faces challenges, including uneven token distribution and a limited understanding of global sequence context. To address these limitations, we propose merging unique 6mer tokens with optimally selected BPE tokens generated through 600 BPE cycles. This hybrid approach ensures a balanced and context-aware vocabulary, enabling the model to capture both short and long patterns within DNA sequences simultaneously. A foundational DLM trained on this hybrid vocabulary was evaluated using next-k-mer prediction as a fine-tuning task, demonstrating significantly improved performance. The model achieved prediction accuracies of 10.78% for 3-mers, 10.1% for 4-mers, and 4.12% for 5-mers, outperforming state-of-the-art models such as NT, DNABERT2, and GROVER. These results highlight the ability of the hybrid tokenization strategy to preserve both the local sequence structure and global contextual information in DNA modeling. This work underscores the importance of advanced tokenization methods in genomic language modeling and lays a robust foundation for future applications in downstream DNA sequence analysis and biological research.
- Abstract(参考訳): 本稿では,6-merトークン化とByte Pair Encoding(BPE-600)を組み合わせることで,DNA言語モデル(DLM)の性能を向上させる新しいハイブリッドトークン化戦略を提案する。
従来のk-merトークン化は、局所的なDNA配列構造を捉えるのに効果的であるが、不均一なトークン分布やグローバルな配列コンテキストの限られた理解など、しばしば課題に直面している。
これらの制約に対処するため、600 BPEサイクルで生成されるBPEトークンを最適に選択した6merトークンとマージすることを提案する。
このハイブリッドアプローチにより、バランスの取れたコンテキスト対応の語彙が保証され、モデルがDNA配列内の短いパターンと長いパターンの両方を同時にキャプチャすることが可能になる。
このハイブリッド語彙を訓練した基礎的DLMを,next-k-mer予測を微調整タスクとして評価し,性能を著しく向上した。
このモデルは3マーで10.78%、4マーで10.1%、5マーで4.12%の予測精度を達成し、NT、DNABERT2、GROVERなどの最先端モデルを上回った。
これらの結果は、DNAモデリングにおける局所的な配列構造とグローバルな文脈情報の両方を保存するためのハイブリッドトークン化戦略の能力を強調している。
本研究は、ゲノム言語モデリングにおける高度なトークン化手法の重要性を浮き彫りにして、下流DNA配列解析および生物学的研究における将来的な応用のための堅牢な基盤を築き上げている。
関連論文リスト
- BMFM-DNA: A SNP-aware DNA foundation model to capture variant effects [14.172782866715844]
テキストで訓練された大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて顕著な結果を示した。
DNAは、明確に定義された単語や一貫した文法が欠けているため、基本的に自然言語と異なる。
配列の変動、特にSNP(Single Nucleotide Polymorphisms)を効果的に統合する事前訓練基礎モデル
以上の結果から,DNALMに配列変化を組み込むことは,すべての微調整タスクの改善にみられる生物学的機能を把握するのに役立つことが示唆された。
論文 参考訳(メタデータ) (2025-06-26T13:56:32Z) - JanusDNA: A Powerful Bi-directional Hybrid DNA Foundation Model [1.6128508494592848]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、他のシーケンシャルなデータタイプにもますます適用されてきている。
我々は、新しい事前学習パラダイムに基づいて構築された、最初の双方向DNA基盤モデルであるJanusDNAを紹介する。
JanusDNAは、1つの80GB GPU上で1つのヌクレオチド分解能で100万塩基対を処理する。
論文 参考訳(メタデータ) (2025-05-22T20:10:55Z) - When repeats drive the vocabulary: a Byte-Pair Encoding analysis of T2T primate genomes [0.0]
我々は、我々のカスタムツールであるdnaBPEを用いて512,000トークンの固定語彙で独立したBPEトークンライザを訓練する。
分析の結果、すべてのアセンブリで11,569個のトークンが共有されているのに対し、991,854個のトークンは1つのゲノムに固有のものであることがわかった。
我々は、ゲノムトークン化を洗練するための潜在的ハイブリッド戦略と繰り返しマスキングアプローチについて議論する。
論文 参考訳(メタデータ) (2025-05-13T19:27:58Z) - HybriDNA: A Hybrid Transformer-Mamba2 Long-Range DNA Language Model [70.69095062674944]
ハイブリッドトランスフォーマー-マンバ2アーキテクチャを組み込んだデコーダのみのDNA言語モデルであるHybriDNAを提案する。
このハイブリッド設計により、HybriDNAはDNA配列を最大131kbまで効率よく単一のヌクレオチド分解能で処理できる。
HybriDNAは、BEND、GUE、LRBベンチマークから算出された33のDNA理解データセットにまたがる最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-15T14:23:43Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Model Decides How to Tokenize: Adaptive DNA Sequence Tokenization with MxDNA [44.630039477717624]
MxDNAは、モデルが段階的に有効なDNAトークン化戦略を自律的に学習する新しいフレームワークである。
我々は、MxDNAが従来の方法とは異なるユニークなトークン化戦略を学習し、自己教師付き事前学習中にトークンレベルでゲノム機能をキャプチャすることを示す。
論文 参考訳(メタデータ) (2024-12-18T10:55:43Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome [10.051595222470304]
我々は、k-merトークン化によって導入された計算とサンプルの非効率性が、大規模なゲノム基盤モデルの開発における主要な障害であると主張している。
我々は、k-merトークン化をByte Pair$に置き換えることを提案するゲノムトークン化に関する概念的および実証的な洞察を提供する。
DNABERT-2は、効率的なトークン化を施し、入力長制約を克服するために複数の戦略を用いるゲノム基盤モデルである。
論文 参考訳(メタデータ) (2023-06-26T18:43:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。