論文の概要: UTF-8 Plumbing: Byte-level Tokenizers Unavoidably Enable LLMs to Generate Ill-formed UTF-8
- arxiv url: http://arxiv.org/abs/2511.05578v1
- Date: Wed, 05 Nov 2025 00:08:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.46533
- Title: UTF-8 Plumbing: Byte-level Tokenizers Unavoidably Enable LLMs to Generate Ill-formed UTF-8
- Title(参考訳): UTF-8プラミング: バイトレベルのトケナイザは必然的にLLMを可能とし、Ill型UTF-8を生成できる
- Authors: Preston Firestone, Shubham Ugare, Gagandeep Singh, Sasa Misailovic,
- Abstract要約: サブワードトークン化は、事前に定義された語彙に従って入力テキストをセグメント化し、言語モデルに入力する。
コードポイントを使用することで、すべてのメンバが段階的に有効な8文字になります。
バイトから始めると、256の初期メンバしか持たない語彙外エラーを避けることができる。
- 参考スコア(独自算出の注目度): 11.900027560734145
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Subword tokenization segments input text according to a pre-defined vocabulary to feed it into a language model; the language model, in turn, generates a sequence made from this same vocabulary. The members of the vocabulary can be built of code points or bytes. Using code points means that all members of the vocabulary are valid UTF-8 characters. However, it also requires thousands of initial members to achieve acceptable coverage of inputs. Beginning with bytes, on the contrary, avoids out-of-vocabulary errors with only 256 initial members of the vocabulary, but the members of the vocabulary and sequences of them are not guaranteed to be valid UTF-8. Sequences that are not valid UTF-8 break code that assumes its input to be valid UTF-8. Applications of language models must account for the breakage thereby introduced. In this paper, we formalize tokenization using monoid theory and prove that tokenizers whose vocabularies contain tokens that are ill-formed UTF-8 can always produce sequences that are ill-formed UTF-8. We demonstrate formally that attempting to incrementally convert tokens back to a string and interpret the results as UTF-8 gives different results than converting the whole sequence of tokens at once. This formal result predicts real-world bugs: we evaluate mitigations for the problem identified and provide case studies of major foundation models, serving engines, and constrained generation systems.
- Abstract(参考訳): サブワードトークン化は、事前に定義された語彙に従って入力テキストをセグメント化し、それを言語モデルに入力する。
語彙のメンバーは、コードポイントまたはバイトで構築することができる。
コードポイントを使用することで、語彙のすべてのメンバがUTF-8文字を有効にすることができる。
しかし、インプットの許容範囲を達成するためには、数千の初期メンバも必要である。
一方、バイトから始めると、語彙の初期メンバは256に過ぎず、語彙外エラーを避けるが、語彙とそれらのシーケンスのメンバはUTF-8の有効性は保証されない。
有効なUTF-8でないシーケンスは、その入力が有効なUTF-8であると仮定するコードを破る。
言語モデルの応用は、それによって導入された破損を考慮に入れなければならない。
本稿では, モノイド理論を用いてトークン化を定式化し, 語彙に不整形なトークンを含むトークン化器が常に不整形なUTF-8を生成可能であることを示す。
トークンを文字列にインクリメンタルに変換し、結果をUTF-8として解釈しようとすると、トークンのシーケンス全体を一度に変換するよりも、結果が異なることが正式に示されている。
この公式な結果は現実世界のバグを予測し、特定された問題の軽減を評価し、主要な基礎モデル、サービスエンジン、制約付き生成システムのケーススタディを提供する。
関連論文リスト
- Back to Bytes: Revisiting Tokenization Through UTF-8 [25.766926865651936]
我々は,テキストの8-8エンコーディングに対応するIDに,テキストを正確にマッピングする最小限のバイトレベルトークンを提供する。
我々の実装は決してアウト・オブ・レンジIDを導入しない。
論文 参考訳(メタデータ) (2025-10-19T20:06:12Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。
BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。
提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - BPE Stays on SCRIPT: Structured Encoding for Robust Multilingual Pretokenization [0.0]
SCRIPT (Script Category Representation in PreTokenization) は、Unicodeスクリプトとカテゴリプロパティに基づいた初期トークンを使用することで、バイト8変換をバイパスする新しい符号化方式である。
実験により,SCRIPT-BPEは,非ラテン文字言語に対する符号化に基づくペナルティを排除しながら,競合圧縮を実現することを示した。
論文 参考訳(メタデータ) (2025-05-30T15:12:41Z) - From Language Models over Tokens to Language Models over Characters [54.123846188068384]
現代の言語モデルは、$itcharacter$ stringsではなく$ittoken$ strings上の内部的、数学的に...分布である。
本稿では,トークンレベル言語モデルから文字レベル言語への変換アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-04T21:19:20Z) - Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。
そのByte-Pairを示します。
Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。
これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文 参考訳(メタデータ) (2024-10-21T07:10:07Z) - Local Byte Fusion for Neural Machine Translation [19.16966721276286]
サブワードトークン化スキームは、現在のNLPモデルで使用される主要なテクニックである。
バイトベースのメソッド、すなわちバイトシーケンスへのトークン化は代替手段である。
多言語翻訳、ゼロショット交叉変換、ドメイン適応の実験は、従来のモデルよりも一貫した改善を示している。
論文 参考訳(メタデータ) (2022-05-23T17:49:02Z) - Neural Machine Translation without Embeddings [44.129310924201604]
多くのNLPモデルは、手作りのトークン化規則とサブワード誘導アルゴリズムによって生成されるサブワードトークンのシーケンス上で動作する。
単純な普遍的な代替手段は、すべてのコンピュータ化されたテキストを8バイトのバイト列として表現することである。
英語から10の異なる言語へのバイトバイト機械翻訳の実験では、BLEUの一貫性が向上し、文字レベルや標準のサブワードレベルモデルに匹敵する結果となった。
論文 参考訳(メタデータ) (2020-08-21T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。