論文の概要: Length-MAX Tokenizer for Language Models
- arxiv url: http://arxiv.org/abs/2511.20849v1
- Date: Tue, 25 Nov 2025 20:56:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.859038
- Title: Length-MAX Tokenizer for Language Models
- Title(参考訳): 言語モデルのためのLongth-MAX Tokenizer
- Authors: Dong Dong, Weijie Su,
- Abstract要約: 本稿では,文字単位の平均トークンを最小限に抑える言語モデルのための新しいトークン化手法を提案する。
Length-MAXトークン化器は99.62%の語彙範囲を達成し、アウトオブボキャブラリレートはテストセットで0.12%と低い。
- 参考スコア(独自算出の注目度): 2.243087516606811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new tokenizer for language models that minimizes the average tokens per character, thereby reducing the number of tokens needed to represent text during training and to generate text during inference. Our method, which we refer to as the Length-MAX tokenizer, obtains its vocabulary by casting a length-weighted objective maximization as a graph partitioning problem and developing a greedy approximation algorithm. On FineWeb and diverse domains, it yields 14--18\% fewer tokens than Byte Pair Encoding (BPE) across vocabulary sizes from 10K to 50K, and the reduction is 13.0\% when the size is 64K. Training GPT-2 models at 124M, 355M, and 1.3B parameters from scratch with five runs each shows 18.5\%, 17.2\%, and 18.5\% fewer steps, respectively, to reach a fixed validation loss, and 13.7\%, 12.7\%, and 13.7\% lower inference latency, together with a 16\% throughput gain at 124M, while consistently improving on downstream tasks including reducing LAMBADA perplexity by 11.7\% and enhancing HellaSwag accuracy by 4.3\%. Moreover, the Length-MAX tokenizer achieves 99.62\% vocabulary coverage and the out-of-vocabulary rate remains low at 0.12\% on test sets. These results demonstrate that optimizing for average token length, rather than frequency alone, offers an effective approach to more efficient language modeling without sacrificing -- and often improving -- downstream performance. The tokenizer is compatible with production systems and reduces embedding and KV-cache memory by 18\% at inference.
- Abstract(参考訳): そこで本研究では,文字単位の平均トークンを最小化し,トレーニング中にテキストを表現し,推論中にテキストを生成するために必要なトークン数を削減した,言語モデルのための新しいトークン化手法を提案する。
本手法は,グラフ分割問題として長重目的最大化をキャストし,グリーディ近似アルゴリズムを開発することにより,長長MAXトークン化器(Longth-MAX tokenizer)と呼ぶ。
FineWebおよび多様なドメインでは、10Kから50Kまでの語彙サイズでByte Pair Encoding (BPE)よりも14--18\%少ないトークンを生成し、64Kの場合には13.0\%削減する。
124M, 355M, 1.3B の GPT-2 モデルをスクラッチからトレーニングすると、それぞれ18.5\%, 17.2\%, 18.5\% のステップを減らし、それぞれ固定されたバリデーション損失に到達し、13.7\%, 12.7\% と 13.7\% の低い推論遅延を示し、124M の 16.7\% のスループット向上とともに、LAMBADA の難易度を 11.7\% に減らし、HellaSwag の精度を 4.3\% に改善した。
さらに、Longth-MAXトークン化器は99.62 %の語彙カバレッジを実現し、アウト・オブ・ボキャブラリレートはテストセットで0.12 %と低いままである。
これらの結果は、周波数のみでなく平均トークン長を最適化することは、下流のパフォーマンスを犠牲にすることなく、より効率的な言語モデリングに効果的なアプローチを提供することを示している。
トークンライザはプロダクションシステムと互換性があり、推論時に埋め込みとKVキャッシュメモリを18%削減する。
関連論文リスト
- SupraTok: Cross-Boundary Tokenization for Enhanced Language Model Performance [1.9336815376402718]
トークン化は、自然言語処理の根本的かつ未発見のボトルネックである。
サブワードセグメンテーションを再現する新しいトークン化アーキテクチャであるSupraTokを提案する。
提案手法は,英語のトークン化効率を31%向上させる。
論文 参考訳(メタデータ) (2025-08-16T00:54:20Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator [65.62084602011596]
大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。
特定の意味のないセパレータトークン(句読点)は意味的に意味のあるトークンと比較して注意点に不均等に寄与する。
SepLLMは,これらのセグメントを圧縮し,冗長なトークンを除去することによって推論を高速化する,プラグアンドプレイフレームワークである。
論文 参考訳(メタデータ) (2024-12-16T18:58:57Z) - Retrofitting Large Language Models with Dynamic Tokenization [3.608780819053423]
現在の言語モデル(LM)は固定された静的なサブワードトークン化器を使用する。
このデフォルトの選択は一般的に、特に英語以外の言語において、効率と言語能力の低下をもたらす。
入力テキストに基づいてトークン境界を動的に決定する手法として,動的トークン化を用いたLMの再構成を提案する。
論文 参考訳(メタデータ) (2024-11-27T17:51:58Z) - BatchPrompt: Accomplish more with less [9.204837699571788]
BatchPromptはトークン制限内でデータをバッチする効率的な方法である。
効率を保ち、性能損失を克服するために、バッチの置換と組立を提案する。
これは、大規模言語モデルの高速化を技術的に改善する最初の試みである。
論文 参考訳(メタデータ) (2023-09-01T10:44:36Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z) - Multilingual Speech Translation with Efficient Finetuning of Pretrained
Models [82.22294901727933]
最小限のLNA(LayerNorm and Attention)ファインタニングは、ゼロショットのクロスリンガルおよびクロスモーダリティ転送能力を実現することができる。
本手法は多言語多言語モデルにおいて強いゼロショット性能を示す。
論文 参考訳(メタデータ) (2020-10-24T08:15:08Z) - BitPruning: Learning Bitlengths for Aggressive and Accurate Quantization [57.14179747713731]
精度を維持しつつ,任意の粒度で推論ビット長を最小化するためのトレーニング手法を提案する。
ImageNetでは、平均4.13ビット、3.76ビット、4.36ビットを生成する。
論文 参考訳(メタデータ) (2020-02-08T04:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。