論文の概要: Compute Optimal Tokenization
- arxiv url: http://arxiv.org/abs/2605.01188v1
- Date: Sat, 02 May 2026 01:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.629649
- Title: Compute Optimal Tokenization
- Title(参考訳): Compute Optimal Tokenization
- Authors: Tomasz Limisiewicz, Artidoro Pagnoni, Srini Iyer, Mike Lewis, Sachin Mehta, Alisa Liu, Margaret Li, Gargi Ghosh, Luke Zettlemoyer,
- Abstract要約: 圧縮速度によって制御されるトークンの情報粒度がスケーリングの傾向にどのように影響するかを検討する。
所望の圧縮速度の設定を可能にする50Mから7Bパラメータまで,988の潜在トークン化モデル(BLT)を訓練する。
実験の結果, モデルパラメータは, 一般に認識されるトークンではなく, バイト単位のデータサイズに比例してスケールすることがわかった。
- 参考スコア(独自算出の注目度): 79.3815358070537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling laws enable the optimal selection of data amount and language model size, yet the impact of the data unit, the token, on this relationship remains underexplored. In this work, we systematically investigate how the information granularity of tokens, controlled by the compression rate (i.e., average bytes of text per token), affects scaling trends. We train 988 latent tokenized models (BLT) ranging from 50M to 7B parameters that enable setting the desired compression rate. This flexibility allows us to study the role of compression rate well beyond 4.57 bytes per token obtained with a popular BPE tokenizer. Our experiments reveal that in compute-optimal configurations, model parameter counts scale proportionally to data size measured in bytes, not in tokens as commonly perceived (Kaplan et al., 2020; Hoffmann et al., 2022). Furthermore, we discover that the optimal compression rate differs from the one obtained with BPE and decreases with compute. These findings generalize to both latent and subword tokenization, as well as to languages other than English, guiding language model developers on tokenization scheme selection for maximal compute efficiency.
- Abstract(参考訳): スケーリング法則は、データ量と言語モデルのサイズを最適に選択することを可能にするが、この関係に対するデータユニット、トークンの影響は未解明のままである。
本研究では,トークンごとの平均テキストバイト数(圧縮率)によって制御されるトークンの情報粒度が,スケーリングの傾向にどのように影響するかを系統的に検討する。
所望の圧縮速度の設定を可能にする50Mから7Bパラメータまで,988の潜在トークン化モデル(BLT)を訓練する。
この柔軟性により、一般的なBPEトークン化器で得られたトークンあたりの圧縮速度は4.57バイトを超える。
実験の結果, モデルパラメータは, 一般に認識されるトークン(Kaplan et al , 2020; Hoffmann et al , 2022)ではなく, バイト単位で測定されたデータサイズに比例してスケールすることがわかった。
さらに、最適圧縮速度は、BPEで得られた圧縮速度と異なり、計算で減少することがわかった。
これらの知見は、潜在トークン化とサブワードトークン化の両方、および英語以外の言語に一般化され、最大計算効率のためのトークン化スキームの選択について言語モデル開発者を導く。
関連論文リスト
- Significance-Gain Pair Encoding for LLMs: A Statistical Alternative to Frequency-Based Subword Merging [0.0]
Significance-Gain BPE は、独立型ヌルモデルの下でz統計による凝集を測定する代替マージ基準である。
検証とテストの難易度をそれぞれ13%、テストの難易度を12%削減し、検証とテストのBPCを0.9~1.0%改善する。
論文 参考訳(メタデータ) (2026-02-26T20:29:18Z) - Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization [53.22544362024936]
トークン化は、ほとんどのNLPパイプラインの最初の、そして最も精査されていないステップである。
トークンの学習のための標準的なアルゴリズムは、周波数ベースの目的に依存している。
本稿ではParity-aware Byte Pairを紹介する。
私たちは、パリティを意識したBPEが言語間でより公平なトークン数をもたらすことを実証的に見出した。
論文 参考訳(メタデータ) (2025-08-06T18:14:43Z) - Unified Scaling Laws for Compressed Representations [69.72517034565467]
各種圧縮表現上でのトレーニングにおいて,統合スケーリングフレームワークがモデル性能を正確に予測できるかどうかを検討する。
我々の主な発見は、単純な「容量」計量が存在するという理論と経験の両方を実証することである。
我々は、圧縮されたフォーマットの精度を直接比較し、スパース量子化されたフォーマットのトレーニングのためのより良いアルゴリズムを導出するために、定式化を拡張した。
論文 参考訳(メタデータ) (2025-06-02T16:52:51Z) - Byte Latent Transformer: Patches Scale Better Than Tokens [101.10994909832063]
Byte Latent Transformer (BLT) はバイトを動的サイズのパッチにエンコードする。
固定推論コストに対して、BLTはパッチとモデルサイズの両方を同時に拡大することにより、トークン化ベースのモデルよりもはるかに優れたスケーリングを示している。
論文 参考訳(メタデータ) (2024-12-13T05:33:32Z) - Unpacking Tokenization: Evaluating Text Compression and its Correlation with Model Performance [34.641079276516926]
我々は,0-gram言語モデリングとみなす圧縮の理論的重要性を論じる。
事前学習した言語モデルの下流での成功に対する圧縮の実証的重要性を示す。
本稿では,トークン化器の圧縮とモデル下流性能の相関関係を示す。
論文 参考訳(メタデータ) (2024-03-10T17:02:53Z) - Tokenization Is More Than Compression [14.939912120571728]
Byte-Pairのような既存のトークン化アプローチ。
(BPE)はデータ圧縮の分野に由来する。
PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文 参考訳(メタデータ) (2024-02-28T14:52:15Z) - Dynamic Programming Encoding for Subword Segmentation in Neural Machine
Translation [80.38621085548013]
本稿では,文をサブワード単位にトークン化するための新しいセグメンテーションアルゴリズムである動的プログラミング(DPE)を提案する。
ターゲットセグメンテーションを見つけるために、正確なログ境界推定と正確なMAP推定を可能にする混合文字サブワード変換器を提案する。
論文 参考訳(メタデータ) (2020-05-03T05:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。