Fugu-MT 論文翻訳(概要): LiteToken: Removing Intermediate Merge Residues From BPE Tokenizers

論文の概要: LiteToken: Removing Intermediate Merge Residues From BPE Tokenizers

arxiv url: http://arxiv.org/abs/2602.04706v1
Date: Wed, 04 Feb 2026 16:19:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-05 19:45:11.614195
Title: LiteToken: Removing Intermediate Merge Residues From BPE Tokenizers
Title（参考訳）: LiteToken:BPEトケナイザーから中間マージ残余を取り除く
Authors: Yike Sun, Haotong Yang, Zhouchen Lin, Muhan Zhang,
Abstract要約: BPE語彙の中間的なマージ残基は、マージ学習中にしばしば見られ、最終語彙に保持されるが、ほとんどは、トークン化剤の使用中にコーパスをトークン化するときに、さらにマージされる。本稿では, この現象を, 一般的に使用されているトークン化剤にまたがって系統的に評価し, 残留トークンを除去する簡単な方法である LiteToken を紹介する。実験によると、LiteTokenはトークンの断片化を減らし、パラメータを減らし、全体的なパフォーマンスを保ちながら、ノイズやスペル入力への堅牢性を改善する。
参考スコア（独自算出の注目度）: 76.59130257385826
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Tokenization is fundamental to how language models represent and process text, yet the behavior of widely used BPE tokenizers has received far less study than model architectures and training. In this paper, we investigate intermediate merge residues in BPE vocabularies: tokens that are frequent during merge learning so that retained in the final vocabulary, but are mostly further merged and rarely emitted when tokenizing the corpus during tokenizer usage. Such low-frequency tokens not only waste vocabulary capacity but also increase vulnerability to adversarial or atypical inputs. We present a systematic empirical characterization of this phenomenon across commonly used tokenizers and introduce LiteToken, a simple method for removing residue tokens. Because the affected tokens are rarely used, pretrained models can often accommodate the modified tokenizer without additional fine-tuning. Experiments show that LiteToken reduces token fragmentation, reduces parameters, and improves robustness to noisy or misspelled inputs, while preserving overall performance.
Abstract（参考訳）: トークン化は、言語モデルがテキストを表現し、処理する方法の基本であるが、広く使われているBPEトークンの振る舞いは、モデルアーキテクチャやトレーニングよりもはるかに少ない研究を受けている。本稿では, BPE語彙における中間マージ残基について検討する: マージ学習中に頻繁なトークンを最終語彙に保持するが, トークン化時にコーパスをトークン化する際にはほとんどマージされない。このような低周波トークンは語彙の容量を浪費するだけでなく、逆入力や非典型入力の脆弱性も増大させる。本稿では, この現象を, 一般的に使用されているトークン化剤にまたがって系統的に評価し, 残留トークンを除去する簡単な方法である LiteToken を紹介する。影響を受けるトークンはめったに使われないため、事前訓練されたモデルは、追加の微調整なしで修正されたトークン化器を適合させることができる。実験によると、LiteTokenはトークンの断片化を減らし、パラメータを減らし、全体的なパフォーマンスを保ちながら、ノイズやスペル入力への堅牢性を改善する。

論文の概要: LiteToken: Removing Intermediate Merge Residues From BPE Tokenizers

関連論文リスト