論文の概要: Exploiting Vocabulary Frequency Imbalance in Language Model Pre-training
- arxiv url: http://arxiv.org/abs/2508.15390v2
- Date: Mon, 27 Oct 2025 02:39:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.422407
- Title: Exploiting Vocabulary Frequency Imbalance in Language Model Pre-training
- Title(参考訳): 言語モデル事前学習における語彙周波数不均衡の爆発
- Authors: Woojin Chung, Jeonghoon Kim,
- Abstract要約: 大規模言語モデルはトークン化器で訓練され、結果として生じるトークン分布は極めて不均衡である。
最近の慣行では、より大きい語彙が好まれているが、その利点がどこから来ているのかは定かではない。
より大きな語彙は、この複雑さを減少させる。
- 参考スコア(独自算出の注目度): 10.990131879961261
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models are trained with tokenizers, and the resulting token distribution is highly imbalanced: a few words dominate the stream while most occur rarely. Recent practice favors ever-larger vocabularies, but it is unclear where the benefit comes from. To this end, we perform a controlled study that scales the vocabulary of the language model from 24K to 196K while holding data, computation, and optimization unchanged. We begin by quantifying the complexity of tokenized text -- formalized via Kolmogorov complexity -- and show that larger vocabularies reduce this complexity. Above 24K, every common word is already tokenized as a single token, so enlarging vocabulary only deepens the relative token-frequency imbalance. Word-level loss decomposition shows that larger vocabularies reduce cross-entropy loss almost exclusively by lowering uncertainty on the 2,500 most frequent words, even though loss on the rare tail rises. The same frequent words cover roughly 75% of tokens in downstream benchmarks, so this training advantage transfers intact. We further show that enlarging model parameters with a fixed vocabulary yields the same frequent-word benefit. Our results recast "bigger vocabularies help" as "lowering complexity of tokenized text helps," offering a simple, principled knob for tokenizer--model co-design and clarifying the loss dynamics that govern language model scaling in pre-training.
- Abstract(参考訳): 大規模な言語モデルはトークン化器で訓練されており、結果として生じるトークンの分布は極めて不均衡である。
最近の慣行では、より大きい語彙が好まれているが、その利点がどこから来ているのかは定かではない。
この目的のために、データ、計算、最適化をそのまま保持しながら、言語モデルの語彙を24Kから196Kにスケールする制御された研究を行う。
まず、トークン化されたテキストの複雑さ(コルモゴロフ複雑性によって形式化された)を定量化し、より大きな語彙がこの複雑さを減少させることを示します。
24Kを超えると、すべての共通語は1つのトークンとしてトークン化されているため、語彙の増大は相対的なトークン周波数の不均衡を深めるだけである。
単語レベルの損失分解は、大きな語彙は、まれな尾の損失が上昇しても、2500の最も頻繁な単語に対する不確実性を低下させることによって、ほぼ排他的にクロスエントロピー損失を減少させることを示している。
同じ頻度の単語がダウンストリームベンチマークのトークンの約75%をカバーしているため、このトレーニングの利点はそのままで転送できる。
さらに、固定語彙でモデルパラメータを拡大すると、同じ頻繁な単語の利点が得られることを示す。
我々の結果は、"より大きい語彙は、トークン化されたテキストの複雑さの低下に役立つ"と再認識し、トークン化のための原則化されたノブを提供し、事前学習における言語モデルのスケーリングを管理する損失ダイナミクスを明確にする。
関連論文リスト
- Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Causal Estimation of Tokenisation Bias [58.20086589761273]
我々は、訓練されたモデルが対応する文字に割り当てる確率に対して、トークンの語彙にサブワードを含むか否かを定量化する。
トークン化は、スケール、語彙、トークンサプライヤにわたるモデルのアウトプットに一貫して影響を与えます。
特に、小モデルの語彙におけるサブワードの存在は、文字の確率を最大17倍に向上させる可能性がある。
論文 参考訳(メタデータ) (2025-06-03T17:59:47Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。
我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。
実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文 参考訳(メタデータ) (2023-10-30T13:33:21Z) - ngram-OAXE: Phrase-Based Order-Agnostic Cross Entropy for
Non-Autoregressive Machine Translation [51.06378042344563]
オートレグレッシブ翻訳(NAT)におけるマルチモーダリティの効果を改善できる新しい訓練用Oaxe損失が証明された
我々は、ngram 句間の並べ替えのみを許し、句内の単語順序の厳密な一致をいまだ必要とすることで oaxe を拡張する。
さらに分析したところ、ngram-oaxeは実際にngram句の翻訳を改善し、文構造をより良くモデル化してより流動的な翻訳を生成することがわかった。
論文 参考訳(メタデータ) (2022-10-08T11:39:15Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。