論文の概要: Peek2: A Regex-free implementation of pretokenizers for Byte-level BPE
- arxiv url: http://arxiv.org/abs/2601.05833v1
- Date: Fri, 09 Jan 2026 15:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.99457
- Title: Peek2: A Regex-free implementation of pretokenizers for Byte-level BPE
- Title(参考訳): Peek2: バイトレベルのBPEのためのプレトケナイザのRegexフリー実装
- Authors: Liu Zai,
- Abstract要約: Peek2は、GPT-3、LLaMa-3、Qwen-2.5で使用されるcl100kのようなプリトケナイザーの代替品である。
ByteレベルのBPEエンコーディングプロセス全体にわたって、全体的なスループットが改善される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretokenization is a crucial, sequential pass in Byte-level BPE tokenizers. Our proposed new implementation, Peek2, serves as a drop-in replacement for cl100k-like pretokenizers used in GPT-3, LLaMa-3, and Qwen-2.5. Designed with performance and safety in mind, Peek2 is Regex-free and delivers a $ 1.11\times $ improvement in overall throughput across the entire Byte-level BPE encoding process. This algorithm runs entirely on the CPU, has stable linear complexity $ O(n) $, and provides presegmentation results identical to those of the original Regex-based pretokenizer.
- Abstract(参考訳): プリトケン化はByteレベルのBPEトークン化器において重要なシーケンシャルパスである。
提案した新しい実装であるPeek2は、GPT-3, LLaMa-3, Qwen-2.5で使用されるcl100kライクなプリトケナイザの代替となる。
パフォーマンスと安全性を念頭に設計され、Peek2はRegexフリーで、ByteレベルのBPEエンコーディングプロセス全体のスループットを1.11\timesで改善する。
このアルゴリズムはCPU上で完全に動作し、線形複雑性が安定な$O(n)$を持ち、元のRegexベースのプリトケナイザと同一のセグメンテーション結果を提供する。
関連論文リスト
- BlockBPE: Parallel BPE Tokenization [0.0]
BlockBPEはバイトペア符号化(BPE)の並列GPU実装である
これは現実的な仮定の下でほぼ線形時間複雑性を達成する。
ハイバッチの推論ワークロードでは、BlockBPEはTiktokenよりも最大2倍、HuggingFace Tokenizersより2.5倍高いスループットを実現している。
論文 参考訳(メタデータ) (2025-07-16T06:12:41Z) - A Partition Cover Approach to Tokenization [24.595558878756787]
トークン化とは、文字列を一定の語彙サイズのトークンに符号化するプロセスである。
Byte-Pair corpora (BPE) は、トークン化問題を圧縮問題として定式化し、マージのシーケンスを実行することでそれに取り組む。
GreedTokは圧縮においてBPEやUnigramよりも優れており、GreedWMCに匹敵するカバースコアが得られることを示す。
論文 参考訳(メタデータ) (2025-01-08T17:07:07Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - A Formal Perspective on Byte-Pair Encoding [100.75374173565548]
Byte-Pairimation (BPE) は、当初圧縮法として考案されたものの、NLPでデータをトークン化するために使われる一般的なアルゴリズムである。
我々は、ランタイムの複雑さを$mathcalOleft(N log Mright)$から$mathcalOleft(N log Mright)$に改善するBPEのより高速な実装を提供しています。
論文 参考訳(メタデータ) (2023-06-29T10:29:23Z) - 1$\times$N Block Pattern for Network Sparsity [90.43191747596491]
我々は,この制限を破るために,ブロック間隔パターン(ブロックプルーニング)を1時間で定義する新しい概念を提案する。
このパターンはMobileNet-V2の上位1の精度でフィルタプルーニングよりも約3.0%改善されている。
また、重み付けによるCortex-A7 CPUの56.04msの推論も得る。
論文 参考訳(メタデータ) (2021-05-31T05:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。