論文の概要: DNATokenizer: A GPU-First Byte-to-Identifier Tokenizer for High-Throughput DNA Language Models
- arxiv url: http://arxiv.org/abs/2601.05531v1
- Date: Fri, 09 Jan 2026 05:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.844008
- Title: DNATokenizer: A GPU-First Byte-to-Identifier Tokenizer for High-Throughput DNA Language Models
- Title(参考訳): DNATokenizer: 高速DNA言語モデルのためのGPUファーストのByte-to-Identifier Tokenizer
- Authors: Eliatan Niktab, Hardip Patel,
- Abstract要約: DNATokはGPUファーストのトークン化システムで、汎用文字列処理をバイトルックアップテーブル(LUT)ベースの識別子ストリーミングと、重複したホスト・ツー・デバイス(H2D)/計算パイプラインに置き換える。
DNATokは最適化されたHugging Faceベースラインよりも84-95倍高いエンコーディングスループットを実現し、最大1.9倍高いH2Dスループットを実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization sits at the boundary between high-throughput genomic input and GPU compute, posing challenges in both algorithm design and system throughput. Overlapping k-mer tokenization can introduce information leakage under masked language modeling (MLM) and may degrade downstream accuracy. Single-nucleotide tokenization avoids leakage and preserves per-base fidelity, but it greatly increases sequence length for attention-based architectures. Non-overlapping k-mers and byte-pair encoding (BPE) provide compression and avoid leakage, at the cost of boundary sensitivity or reduced interpretability. Empirically, the choice of tokenization interacts strongly with model architecture and task requirements. At the system level, however, standard string tokenizers and host-bound vocabulary lookups dominate wall-clock time once inputs reach billions of bases, regardless of the tokenization algorithm. We present DNATok, a high-performance, GPU-first tokenization system that replaces general-purpose string processing with byte lookup table (LUT)-based identifier streaming and an overlapped host-to-device (H2D)/compute pipeline using pinned memory and architectural parallelism. DNATok is vocabulary-agnostic: it accelerates single-nucleotide, non-overlapping k-mer, and BPE tokenization, and integrates as a drop-in systems layer beneath genomic foundation models. DNATok achieves 84-95x higher encoding throughput than optimized Hugging Face baselines and up to 1.9x higher H2D throughput. End-to-end streaming reaches 1.27-1.84e8 tokens/s depending on configuration, effectively removing tokenization as a bottleneck for production-scale training and inference.
- Abstract(参考訳): トークン化は、高スループットゲノミクス入力とGPU計算の境界に位置し、アルゴリズム設計とシステムのスループットの両方において課題を提起する。
k-merトークンの重複により、マスク言語モデリング(MLM)の下での情報漏洩が発生し、下流の精度が低下する可能性がある。
単一ヌクレオチドのトークン化は、リークを回避し、ベース毎の忠実さを保存するが、注意に基づくアーキテクチャのシーケンス長を大幅に増加させる。
オーバーラップしないk-merとバイトペア符号化(BPE)は、境界感度や解釈可能性の低下を犠牲にして、圧縮とリークを回避する。
経験的に、トークン化の選択はモデルアーキテクチャやタスク要求と強く相互作用します。
しかし、システムレベルでは、標準的な文字列トークン化器とホストバウンドのボキャブラリルックアップが、トークン化アルゴリズムにかかわらず、入力が数十億のベースに達すると、ウォールクロック時間を支配している。
汎用文字列処理をバイトルックアップテーブル(LUT)ベースの識別子ストリーミングに置き換えた高性能なGPUファーストトークンシステムであるDNATokと、ピン付きメモリとアーキテクチャ並列性を用いた重複ホスト・ツー・デバイス(H2D)/計算パイプラインを提案する。
DNATokは、単一のヌクレオチド、非重なり合うk-mer、BPEのトークン化を加速し、ゲノム基盤モデルの下にあるドロップインシステム層として統合される。
DNATokは最適化されたHugging Faceベースラインよりも84-95倍高いエンコーディングスループットを実現し、最大1.9倍高いH2Dスループットを実現している。
エンドツーエンドストリーミングは構成に応じて1.27-1.84e8トークン/秒に達する。
関連論文リスト
- Trainable Log-linear Sparse Attention for Efficient Diffusion Transformers [36.26426380985327]
Diffusion Transformers (DiTs) は、視覚生成における技術の状態を設定しているが、その二次的な自己注意コストは、長いトークンシーケンスへのスケーリングを制限している。
最近のTop-Kスパースアテンションアプローチは、トークンをブロックワイズ表現に圧縮することで、DiTの計算を減らす。
極長トークン列に対するトレーニング可能なスパースアテンション機構であるログ線形スパースアテンション(LLSA)を導入する。
論文 参考訳(メタデータ) (2025-12-18T14:53:12Z) - Near-Lossless Model Compression Enables Longer Context Inference in DNA Large Language Models [8.059385582452112]
FOCUS(Feature-Oriented Compression for Ultra-long Self-attention)は、事前訓練されたDNA LLMに挿入できるプログレッシブ・コンテクスト・圧縮モジュールである。
ホールドアウトヒト染色体では、FOCUSはほぼ無数の忠実性を達成する。
圧縮のないベースラインと比較して、FOCUSはKVキャッシュメモリを削減し、O(N2)からニア線形O(N)への効果的な推論スケーリングを変換する。
論文 参考訳(メタデータ) (2025-11-18T17:29:39Z) - MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging [65.07273789940116]
本稿では,動的ゲノミクストークンと潜在トランスフォーマーをコンテキスト対応事前学習タスクで協調的に最適化する階層型アーキテクチャを提案する。
MergeDNAは3つの人気のあるDNAベンチマークと、微調整やゼロショット評価を伴う複数のマルチオミクスタスクにおいて優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-17T19:27:41Z) - Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - REAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization [130.46612643194973]
reARはトークン単位の正規化目標を導入する単純なトレーニング戦略です。
ImageNetでは、gFIDを3.02から1.86に削減し、標準化ベースのトークンーザを使用してISを316.9に改善している。
高度なトークン化器に適用すると、177Mパラメータしか持たない1.42のgFIDが達成され、その性能はより大きな最先端拡散モデル(675M)と一致する。
論文 参考訳(メタデータ) (2025-10-06T02:48:13Z) - zip2zip: Inference-Time Adaptive Tokenization via Online Compression [27.16551923444618]
zip2zipは、大規模言語モデルでコンテキスト適応トークン化を実現するための新しい方法である。
パラメータ効率のよい微調整により、既存のLLMを10GPU時間でzip2zipにアップトレーニングできることが示される。
結果としてLLMはテスト時間適応を行い、目に見えないコンテキストでハイパートークンを使うことを学び、入力トークンと出力トークンを15~40%削減する。
論文 参考訳(メタデータ) (2025-06-01T17:03:02Z) - Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation [84.00166854547241]
拡散変換器(DiT)はビデオ生成に必須であるが,注意の2次複雑さにより遅延が著しく低下する。
SVG2は,識別精度を最大化し,無駄を最小化する学習自由フレームワークである。
論文 参考訳(メタデータ) (2025-05-24T21:30:29Z) - CODA: Repurposing Continuous VAEs for Discrete Tokenization [31.932323809073477]
textbfCODA(textbfCOntinuous-to-textbfDiscrete textbfAdaptation)は、圧縮と離散化を分離するフレームワークである。
提案手法は,ImageNet 256$times$256ベンチマークにおいて,$mathbf0.43$と$mathbf1.34$を8倍,$16倍の圧縮で,100%のコードブック利用と注目すべき再構成FID(rFID)を実現している。
論文 参考訳(メタデータ) (2025-03-22T12:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。