論文の概要: Back to Bytes: Revisiting Tokenization Through UTF-8
- arxiv url: http://arxiv.org/abs/2510.16987v1
- Date: Sun, 19 Oct 2025 20:06:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.928046
- Title: Back to Bytes: Revisiting Tokenization Through UTF-8
- Title(参考訳): Back to Bytes:UTF-8によるトークン化の再検討
- Authors: Amit Moryossef, Clara Meister, Pavel Stepachev, Desmond Elliott,
- Abstract要約: 我々は,テキストの8-8エンコーディングに対応するIDに,テキストを正確にマッピングする最小限のバイトレベルトークンを提供する。
我々の実装は決してアウト・オブ・レンジIDを導入しない。
- 参考スコア(独自算出の注目度): 25.766926865651936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present UTF8Tokenizer, a minimalist byte-level tokenizer that maps text exactly to IDs corresponding to the bytes underlying the text's UTF-8 encoding (e.g., byte x09 is token ID 9). Unlike prior byte-level approaches (Xue et al., 2021; Pagnoni et al., 2025), our implementation never introduces out-of-range IDs (i.e. there is no token ID 256) or auxiliary tokens: all special behavior (e.g., padding, boundaries, conversation structure, attention segments, tool calling, "thinking" spans, etc.) is encoded using C0 control bytes - just as ASCII was originally designed to embed control information alongside printable text. These design principles yield practical benefits: (1) faster tokenization (14x) and significantly lower host-device transfer (8x less than int64); (2) simple, shareable 256*d embedding tables that can be aligned across models; and (3) a training-time enhancement via bit-biased embeddings, which exposes per-byte bit structure and can be added to the embedding table post-training, removing inference costs. Our HuggingFace-compatible implementation improves language modeling convergence.
- Abstract(参考訳): UTF8Tokenizerは、テキストのUTF-8エンコーディングを支えるバイトに対応するID(例えば、バイトx09はトークンID9)に、テキストを正確にマッピングする最小限のバイトレベルトークンライザである。
従来のバイトレベルのアプローチ(Xue et al , 2021; Pagnoni et al , 2025)とは異なり、我々の実装では、アウト・オブ・レンジID(トークンID 256は存在しない)や補助トークンを導入していない。
これらの設計原則は、(1)高速なトークン化(14x)と、(t64よりも8倍少ない)ホストデバイス転送(14x)、(2)モデル間で整列可能なシンプルで共有可能な256*d埋め込みテーブル、(3)バイト単位のビット構造を公開するビットバイアス埋め込みによるトレーニング時間拡張、そして、後のトレーニング、推論コストの削減など、実用的な利点をもたらす。
HuggingFace互換の実装は、言語モデリングの収束を改善します。
関連論文リスト
- BPE Stays on SCRIPT: Structured Encoding for Robust Multilingual Pretokenization [0.0]
SCRIPT (Script Category Representation in PreTokenization) は、Unicodeスクリプトとカテゴリプロパティに基づいた初期トークンを使用することで、バイト8変換をバイパスする新しい符号化方式である。
実験により,SCRIPT-BPEは,非ラテン文字言語に対する符号化に基づくペナルティを排除しながら,競合圧縮を実現することを示した。
論文 参考訳(メタデータ) (2025-05-30T15:12:41Z) - Language-Guided Image Tokenization for Generation [63.0859685332583]
TexTokは、言語を利用してコンパクトでハイレベルなセマンティック表現を提供する、シンプルで効果的なトークン化フレームワークである。
TexTokはテキスト条件のない従来のトークン化ツールと比較して、ImageNet-256と-512ベンチマークでそれぞれ29.2%と48.1%のFIDの改善を実現している。
バニラ DiT ジェネレータを備えた TexTok は、ImageNet-256 と -512 でそれぞれ 1.46 と 1.62 の最先端 FID スコアを達成している。
論文 参考訳(メタデータ) (2024-12-08T03:18:17Z) - Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。
そのByte-Pairを示します。
Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。
これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文 参考訳(メタデータ) (2024-10-21T07:10:07Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Local Byte Fusion for Neural Machine Translation [19.16966721276286]
サブワードトークン化スキームは、現在のNLPモデルで使用される主要なテクニックである。
バイトベースのメソッド、すなわちバイトシーケンスへのトークン化は代替手段である。
多言語翻訳、ゼロショット交叉変換、ドメイン適応の実験は、従来のモデルよりも一貫した改善を示している。
論文 参考訳(メタデータ) (2022-05-23T17:49:02Z) - Neural Machine Translation without Embeddings [44.129310924201604]
多くのNLPモデルは、手作りのトークン化規則とサブワード誘導アルゴリズムによって生成されるサブワードトークンのシーケンス上で動作する。
単純な普遍的な代替手段は、すべてのコンピュータ化されたテキストを8バイトのバイト列として表現することである。
英語から10の異なる言語へのバイトバイト機械翻訳の実験では、BLEUの一貫性が向上し、文字レベルや標準のサブワードレベルモデルに匹敵する結果となった。
論文 参考訳(メタデータ) (2020-08-21T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。