論文の概要: Exploiting Vocabulary Frequency Imbalance in Language Model Pre-training
- arxiv url: http://arxiv.org/abs/2508.15390v1
- Date: Thu, 21 Aug 2025 09:26:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.263838
- Title: Exploiting Vocabulary Frequency Imbalance in Language Model Pre-training
- Title(参考訳): 言語モデル事前学習における語彙周波数不均衡の爆発
- Authors: Woojin Chung, Jeonghoon Kim,
- Abstract要約: 大規模言語モデルはトークン化器で訓練され、結果として生じるトークン分布は極めて不均衡である。
最近の実践では、より大きい語彙が好まれているが、その利点の源泉は不明である。
データ、計算、最適化を固定しながら、言語モデルの語彙を24Kから196Kにスケールする制御された研究を行う。
- 参考スコア(独自算出の注目度): 3.7752830020595787
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models are trained with tokenizers, and the resulting token distribution is highly imbalanced: a few words dominate the stream while most occur rarely. Recent practice favors ever-larger vocabularies, but the source of the benefit is unclear. We conduct a controlled study that scales the language model's vocabulary from 24K to 196K while holding data, compute, and optimization fixed. We first quantify the complexity of tokenized text, formalized via Kolmogorov complexity, and show that larger vocabularies reduce this complexity. Above 24K, every common word is already a single token, so further growth mainly deepens the relative token-frequency imbalance. A word-level loss decomposition shows that larger vocabularies reduce cross-entropy almost exclusively by lowering uncertainty on the 2,500 most frequent words, even though loss on the rare tail rises. Constraining input and output embedding norms to attenuate the effect of token-frequency imbalance reverses the gain, directly showing that the model exploits rather than suffers from imbalance. Because the same frequent words cover roughly 77% of tokens in downstream benchmarks, this training advantage transfers intact. We also show that enlarging model parameters with a fixed vocabulary yields the same frequent-word benefit. Our results reframe "bigger vocabularies help" as "lowering the complexity of tokenized text helps," providing a simple, principled lever for tokenizer-model co-design and clarifying the loss dynamics that govern language-model scaling in pre-training.
- Abstract(参考訳): 大規模な言語モデルはトークン化器で訓練されており、結果として生じるトークンの分布は極めて不均衡である。
最近の実践では、より大きい語彙が好まれているが、その利点の源泉は不明である。
データ、計算、最適化を固定しながら、言語モデルの語彙を24Kから196Kにスケールする制御された研究を行う。
まずトークン化されたテキストの複雑さを定量化し、コルモゴロフの複雑さを通して形式化し、より大きな語彙がこの複雑さを減少させることを示す。
24Kを超えると、すべての共通語は1つのトークンであり、それ以外は相対的なトークン/周波数の不均衡が強くなる。
単語レベルの損失分解は、大きな語彙は、まれな尾の損失が上昇しても、2500の最も頻繁な単語に対する不確実性を低下させることによって、ほぼ独占的にクロスエントロピーを減少させることを示している。
入力と出力の埋め込みノルムを制限し、トークン周波数の不均衡の影響を緩和することで利得を逆転させ、モデルが不均衡に苦しむのではなく悪用することを示す。
同じ頻度の単語がダウンストリームベンチマークのトークンの約77%をカバーしているため、このトレーニングの利点はそのまま移行できる。
また、固定語彙でモデルパラメータを拡大すると、同じ頻繁な単語の利点が得られることを示す。
我々の結果は、"より大きな語彙は、トークン化テキストの複雑さを減らし、トークン化モデルの共同設計のためのシンプルで原則化されたレバーを提供し、事前学習における言語モデルスケーリングを管理する損失ダイナミクスを明確にする"ものとして、"より大きい語彙が役立つ"と再設定しました。
関連論文リスト
- Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Causal Estimation of Tokenisation Bias [58.20086589761273]
我々は、訓練されたモデルが対応する文字に割り当てる確率に対して、トークンの語彙にサブワードを含むか否かを定量化する。
トークン化は、スケール、語彙、トークンサプライヤにわたるモデルのアウトプットに一貫して影響を与えます。
特に、小モデルの語彙におけるサブワードの存在は、文字の確率を最大17倍に向上させる可能性がある。
論文 参考訳(メタデータ) (2025-06-03T17:59:47Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。
我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。
実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文 参考訳(メタデータ) (2023-10-30T13:33:21Z) - ngram-OAXE: Phrase-Based Order-Agnostic Cross Entropy for
Non-Autoregressive Machine Translation [51.06378042344563]
オートレグレッシブ翻訳(NAT)におけるマルチモーダリティの効果を改善できる新しい訓練用Oaxe損失が証明された
我々は、ngram 句間の並べ替えのみを許し、句内の単語順序の厳密な一致をいまだ必要とすることで oaxe を拡張する。
さらに分析したところ、ngram-oaxeは実際にngram句の翻訳を改善し、文構造をより良くモデル化してより流動的な翻訳を生成することがわかった。
論文 参考訳(メタデータ) (2022-10-08T11:39:15Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。