論文の概要: Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations
- arxiv url: http://arxiv.org/abs/2506.19004v1
- Date: Mon, 23 Jun 2025 18:02:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.331823
- Title: Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations
- Title(参考訳): 破れたトークン? 言語モデルで非カノニカルなトークン化を秘かに処理できる
- Authors: Brian Siyuan Zheng, Alisa Liu, Orevaoghene Ahia, Jonathan Hayase, Yejin Choi, Noah A. Smith,
- Abstract要約: ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
- 参考スコア(独自算出の注目度): 83.93566096400723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern tokenizers employ deterministic algorithms to map text into a single "canonical" token sequence, yet the same string can be encoded as many non-canonical tokenizations using the tokenizer vocabulary. In this work, we investigate the robustness of LMs to text encoded with non-canonical tokenizations entirely unseen during training. Surprisingly, when evaluated across 20 benchmarks, we find that instruction-tuned models retain up to 93.4% of their original performance when given a randomly sampled tokenization, and 90.8% with character-level tokenization. We see that overall stronger models tend to be more robust, and robustness diminishes as the tokenization departs farther from the canonical form. Motivated by these results, we then identify settings where non-canonical tokenization schemes can *improve* performance, finding that character-level segmentation improves string manipulation and code understanding tasks by up to +14%, and right-aligned digit grouping enhances large-number arithmetic by +33%. Finally, we investigate the source of this robustness, finding that it arises in the instruction-tuning phase. We show that while both base and post-trained models grasp the semantics of non-canonical tokenizations (perceiving them as containing misspellings), base models try to mimic the imagined mistakes and degenerate into nonsensical output, while post-trained models are committed to fluent responses. Overall, our findings suggest that models are less tied to their tokenizer than previously believed, and demonstrate the promise of intervening on tokenization at inference time to boost performance.
- Abstract(参考訳): 現代のトークンライザは、テキストを単一の"標準"トークンシーケンスにマッピングするために決定論的アルゴリズムを使用しているが、同じ文字列はトークンライザ語彙を使用して多くの非標準トークン化を符号化することができる。
本研究では,非標準トークン化で符号化されたテキストに対するLMの堅牢性について検討する。
驚くべきことに、20のベンチマークで評価すると、ランダムにサンプリングされたトークン化が与えられたとき、命令調整されたモデルは元のパフォーマンスの93.4%、文字レベルのトークン化が90.8%であることがわかった。
全体としてより強いモデルはより堅牢であり、トークン化が標準形式から遠く離れるにつれて頑健性が低下する傾向にある。
これらの結果から,文字レベルのセグメンテーションにより文字列操作やコード理解タスクが最大+14%向上し,右列桁のグルーピングにより大算数演算が+33%向上することが判明した。
最後に、この頑健さの源泉について検討し、それが命令調整フェーズに現れることを確かめる。
ベースモデルとポストトレーニングモデルの両方が非標準的トークン化の意味を把握し(ミススペルを含むと認識する)、ベースモデルは想定された誤りを模倣し、非意味的なアウトプットへと退化させようとする一方で、ポストトレーニングモデルは流動的な応答にコミットすることを示す。
以上の結果から, モデルが従来よりもトークン化に結びついていることが示唆され, 性能向上のための推論時間におけるトークン化への介入の可能性を実証した。
関連論文リスト
- Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化はモデルの世代に歪みをもたらす可能性がある。
トークンライザのミスマッチは、しばしばモデル構成と相互運用性を妨げる。
本稿では,BPEトークン化器を用いた自己回帰型LMを文字レベルあるいはバイトレベルのLMに変換する推論時間を提案する。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - Language Models over Canonical Byte-Pair Encodings [56.09166157337198]
トークンレベルの言語モデルにおいて、正準性を強制する手法を提案する。
正則性ミスの修正は,いくつかのモデルやコーパスの保持データの可能性を向上させることを示す。
論文 参考訳(メタデータ) (2025-06-09T17:26:14Z) - Canonical Autoregressive Generation [17.065618029171766]
大規模言語モデルが必ずしも標準トークンシーケンスを生成するとは限らないことを示す。
非正準トークン列の生成を阻害する簡易かつ効率的なサンプリング手法であるカノニカルサンプリングを導入する。
論文 参考訳(メタデータ) (2025-06-06T18:09:10Z) - From Language Models over Tokens to Language Models over Characters [54.123846188068384]
現代の言語モデルは、$itcharacter$ stringsではなく$ittoken$ strings上の内部的、数学的に...分布である。
本稿では,トークンレベル言語モデルから文字レベル言語への変換アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-04T21:19:20Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。