Compute Optimal Tokenization
Abstractの概要
本論文は、トークン圧縮率(トークンあたりの平均バイト数)が言語モデルの計算最適スケーリング挙動にどのように影響するかを調査している。著者らは、5×10^18から2×10^21 FLOPsの計算予算にわたり、50Mから7Bパラメータの988個の潜在トークン化BLTモデルを訓練し、最適データサイズ、モデルサイズ、損失に対する圧縮率を考慮したスケーリング則をフィッティングした。主要な発見は、計算最適構成において、モデルパラメータ数はトークン数ではなくバイト数で測定されたデータサイズに比例してスケールし、バイト対パラメータ比が圧縮率にかかわらずほぼ一定に保たれることである。本論文はまた、サブワードトークナイザーや多言語設定も検討し、トークン化手法のファミリー間で類似のスケーリング挙動が見られること、および言語依存の最適圧縮率が存在することを示している。
新規性
本研究は、トークン数を基本的なデータ単位として扱うのではなく、トークン圧縮率を明示的に考慮したスケーリング則を導入し、実証的にフィッティングしている。988+320のモデルを用いた潜在トークン化とサブワードトークン化の両方にわたる制御された研究を提供し、さらに多言語実験を通じて最適圧縮率と言語間パリティの関連を示している。
成果
英語BLTモデルについて、フィッティングされたスケーリング指数(α=0.465、β=0.471、いずれも0.5に近い)は、最適バイト対パラメータ比が計算予算および圧縮率にわたってほぼ一定(約60バイト/パラメータ)であることを確認している。最適圧縮率は性能に対して非単調であり、スケールとともに緩やかに減少する(10^20 FLOPsでT*≈3.69、2×10^21 FLOPsでT*≈3.33)。多言語実験では、最適バイト対パラメータ比と最適圧縮率は言語によって異なり、言語間パリティと相関する一方、一般的な多言語トークナイザーは一部の高リソース言語を過度に圧縮し、一部の低リソース言語を圧縮不足にしていることが判明した。
論文の注目点
- 計算最適スケーリングは、トークンあたりのパラメータ数よりもバイトあたりのパラメータ数で表現する方が適切である。フィッティングされたスケーリング指数(α≈0.465、β≈0.471)は、最適バイト対パラメータ比(英語で約60)が圧縮設定にわたってほぼ一定であることを示している。
- 圧縮率が高いほど常に良いという単調な傾向ではなく、内部最適圧縮率が存在し、この最適値は訓練計算量の増加とともに緩やかに減少する(例:10^20 FLOPsでT*≈3.69から2×10^21 FLOPsでT*≈3.33へ)。
- 同様の定性的傾向が潜在トークン化とサブワードトークン化の両方で成立する一方、多言語結果は最適圧縮率が言語依存であり、パリティと相関し、一般的なBPEトークナイザーが達成する圧縮率とは乖離していることを示している。