論文の概要: When repeats drive the vocabulary: a Byte-Pair Encoding analysis of T2T primate genomes
- arxiv url: http://arxiv.org/abs/2505.08918v1
- Date: Tue, 13 May 2025 19:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.28493
- Title: When repeats drive the vocabulary: a Byte-Pair Encoding analysis of T2T primate genomes
- Title(参考訳): リピートが語彙を駆動する時:T2T霊長類ゲノムのByte-Pairエンコード解析
- Authors: Marina Popova, Iaroslav Chelombitko, Aleksey Komissarov,
- Abstract要約: 我々は、我々のカスタムツールであるdnaBPEを用いて512,000トークンの固定語彙で独立したBPEトークンライザを訓練する。
分析の結果、すべてのアセンブリで11,569個のトークンが共有されているのに対し、991,854個のトークンは1つのゲノムに固有のものであることがわかった。
我々は、ゲノムトークン化を洗練するための潜在的ハイブリッド戦略と繰り返しマスキングアプローチについて議論する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of telomere-to-telomere (T2T) genome assemblies has opened new avenues for comparative genomics, yet effective tokenization strategies for genomic sequences remain underexplored. In this pilot study, we apply Byte Pair Encoding (BPE) to nine T2T primate genomes including three human assemblies by training independent BPE tokenizers with a fixed vocabulary of 512,000 tokens using our custom tool, dnaBPE. Our analysis reveals that only 11,569 tokens are shared across all assemblies, while nearly 991,854 tokens are unique to a single genome, indicating a rapid decline in shared vocabulary with increasing assembly comparisons. Moreover, phylogenetic trees derived from token overlap failed to recapitulate established primate relationships, a discrepancy attributed to the disproportionate influence of species-specific high-copy repetitive elements. These findings underscore the dual nature of BPE tokenization: while it effectively compresses repetitive sequences, its sensitivity to high-copy elements limits its utility as a universal tool for comparative genomics. We discuss potential hybrid strategies and repeat-masking approaches to refine genomic tokenization, emphasizing the need for domain-specific adaptations in the development of large-scale genomic language models. The dnaBPE tool used in this study is open-source and available at https://github.com/aglabx/dnaBPE.
- Abstract(参考訳): テロメア・ツー・テロメア(T2T)ゲノム組立体の出現は、比較ゲノム学の新たな道を開いたが、ゲノム配列の効果的なトークン化戦略は未解明のままである。
本試験では, 人体3組を含む9種のT2T霊長類ゲノムにByte Pair Encoding (BPE) を適用し, 独立したBPEトークンーを512,000個のトークンの固定語彙で訓練する。
分析の結果,全アセンブリで11,569個のトークンが共有されているのに対し,991,854個のトークンは1つのゲノムに固有のものであり,共有語彙の急激な減少と,アセンブリ比較の増加が示唆された。
さらに, トークン重複から得られた系統樹は, 種特異的な高コピー反復的要素の不均等な影響が原因で, 確立された霊長類関係の再カプセル化に失敗した。
繰り返し配列を効果的に圧縮する一方で、ハイコピー要素に対する感度は、比較ゲノム学の普遍的なツールとしての有用性を制限している。
我々は,大規模ゲノム言語モデルの開発において,ドメイン固有の適応の必要性を強調し,遺伝的トークン化を洗練するための潜在的ハイブリッド戦略と繰り返しマスキングアプローチについて議論する。
この研究で使用されるdnaBPEツールはオープンソースであり、https://github.com/aglabx/dnaBPEで入手できる。
関連論文リスト
- evoBPE: Evolutionary Protein Sequence Tokenization [3.4196611972116786]
現在のサブワードトークン化技術は主に自然言語処理のために開発されたが、タンパク質配列の複雑な構造と機能的特性を適切に表現できないことが多い。
本研究は、進化的突然変異パターンを配列分割に統合する新しいトークン化手法であるevoBPEを紹介する。
evoBPEは、タンパク質機能予測、構造モデリング、進化解析における機械学習応用の新しい可能性を開く。
論文 参考訳(メタデータ) (2025-03-11T19:19:48Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - Byte Pair Encoding Is All You Need For Automatic Bengali Speech
Recognition [0.0]
バイトペア符号化(BPE)は、oo-of-vocabulary(OOV)課題に対処するための効果的なトークン化手法として現れる。
最近の研究は、BPEサブワードトークン化の有効性が言語の形態学的性質に依存していることを強調している。
本研究は,ベンガル語に対するBPEトークンの最適個数を実験的に同定した。
論文 参考訳(メタデータ) (2024-01-28T00:41:21Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome [10.051595222470304]
我々は、k-merトークン化によって導入された計算とサンプルの非効率性が、大規模なゲノム基盤モデルの開発における主要な障害であると主張している。
我々は、k-merトークン化をByte Pair$に置き換えることを提案するゲノムトークン化に関する概念的および実証的な洞察を提供する。
DNABERT-2は、効率的なトークン化を施し、入力長制約を克服するために複数の戦略を用いるゲノム基盤モデルである。
論文 参考訳(メタデータ) (2023-06-26T18:43:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。