論文の概要: Exploiting Vocabulary Frequency Imbalance in Language Model Pre-training
- arxiv url: http://arxiv.org/abs/2508.15390v2
- Date: Mon, 27 Oct 2025 02:39:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.422407
- Title: Exploiting Vocabulary Frequency Imbalance in Language Model Pre-training
- Title(参考訳): 言語モデル事前学習における語彙周波数不均衡の爆発
- Authors: Woojin Chung, Jeonghoon Kim,
- Abstract要約: 大規模言語モデルはトークン化器で訓練され、結果として生じるトークン分布は極めて不均衡である。
最近の慣行では、より大きい語彙が好まれているが、その利点がどこから来ているのかは定かではない。
より大きな語彙は、この複雑さを減少させる。
- 参考スコア(独自算出の注目度): 10.990131879961261
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models are trained with tokenizers, and the resulting token distribution is highly imbalanced: a few words dominate the stream while most occur rarely. Recent practice favors ever-larger vocabularies, but it is unclear where the benefit comes from. To this end, we perform a controlled study that scales the vocabulary of the language model from 24K to 196K while holding data, computation, and optimization unchanged. We begin by quantifying the complexity of tokenized text -- formalized via Kolmogorov complexity -- and show that larger vocabularies reduce this complexity. Above 24K, every common word is already tokenized as a single token, so enlarging vocabulary only deepens the relative token-frequency imbalance. Word-level loss decomposition shows that larger vocabularies reduce cross-entropy loss almost exclusively by lowering uncertainty on the 2,500 most frequent words, even though loss on the rare tail rises. The same frequent words cover roughly 75% of tokens in downstream benchmarks, so this training advantage transfers intact. We further show that enlarging model parameters with a fixed vocabulary yields the same frequent-word benefit. Our results recast "bigger vocabularies help" as "lowering complexity of tokenized text helps," offering a simple, principled knob for tokenizer--model co-design and clarifying the loss dynamics that govern language model scaling in pre-training.
- Abstract(参考訳): 大規模な言語モデルはトークン化器で訓練されており、結果として生じるトークンの分布は極めて不均衡である。
最近の慣行では、より大きい語彙が好まれているが、その利点がどこから来ているのかは定かではない。
この目的のために、データ、計算、最適化をそのまま保持しながら、言語モデルの語彙を24Kから196Kにスケールする制御された研究を行う。
まず、トークン化されたテキストの複雑さ(コルモゴロフ複雑性によって形式化された)を定量化し、より大きな語彙がこの複雑さを減少させることを示します。
24Kを超えると、すべての共通語は1つのトークンとしてトークン化されているため、語彙の増大は相対的なトークン周波数の不均衡を深めるだけである。
単語レベルの損失分解は、大きな語彙は、まれな尾の損失が上昇しても、2500の最も頻繁な単語に対する不確実性を低下させることによって、ほぼ排他的にクロスエントロピー損失を減少させることを示している。
同じ頻度の単語がダウンストリームベンチマークのトークンの約75%をカバーしているため、このトレーニングの利点はそのままで転送できる。
さらに、固定語彙でモデルパラメータを拡大すると、同じ頻繁な単語の利点が得られることを示す。
我々の結果は、"より大きい語彙は、トークン化されたテキストの複雑さの低下に役立つ"と再認識し、トークン化のための原則化されたノブを提供し、事前学習における言語モデルのスケーリングを管理する損失ダイナミクスを明確にする。
関連論文リスト
- LiteToken: Removing Intermediate Merge Residues From BPE Tokenizers [76.59130257385826]
BPE語彙の中間的なマージ残基は、マージ学習中にしばしば見られ、最終語彙に保持されるが、ほとんどは、トークン化剤の使用中にコーパスをトークン化するときに、さらにマージされる。
本稿では, この現象を, 一般的に使用されているトークン化剤にまたがって系統的に評価し, 残留トークンを除去する簡単な方法である LiteToken を紹介する。
実験によると、LiteTokenはトークンの断片化を減らし、パラメータを減らし、全体的なパフォーマンスを保ちながら、ノイズやスペル入力への堅牢性を改善する。
論文 参考訳(メタデータ) (2026-02-04T16:19:05Z) - Training Language Models with homotokens Leads to Delayed Overfitting [2.531076482407163]
サブワードトークン化は、多くの異なるトークンシーケンスが同じ表面形式にデコードされ、意味を保存する言語モデルにおける計算層を導入している。
我々は、データ拡張の厳密な意味保存形式として、ホモトケンを定式化する。
データ制約付き事前トレーニングでは、ホモトケン強化は繰り返しデータ露光下でのオーバーフィッティングを継続的に遅らせる。
多言語微調整では、ホモトケンの有効性はトークン化器の品質に依存する。
論文 参考訳(メタデータ) (2026-01-06T09:57:00Z) - Lossless Vocabulary Reduction for Auto-Regressive Language Models [21.015330660860865]
トークンと呼ばれるサブワードのシーケンスに所定のテキストを分解するプロセスであるトークン化は、言語モデルの開発において重要なコンポーネントの1つである。
我々は、与えられた自己回帰言語モデルを任意に小さな語彙を持つ言語に変換する、損失のない語彙還元の理論的枠組みを確立する。
アプリケーションとして、異なるトークン化を持つ言語モデルが、最大共通語彙によって互いに効率的に協調できることを実証する。
論文 参考訳(メタデータ) (2025-10-09T11:38:48Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Causal Estimation of Tokenisation Bias [58.20086589761273]
我々は、訓練されたモデルが対応する文字に割り当てる確率に対して、トークンの語彙にサブワードを含むか否かを定量化する。
トークン化は、スケール、語彙、トークンサプライヤにわたるモデルのアウトプットに一貫して影響を与えます。
特に、小モデルの語彙におけるサブワードの存在は、文字の確率を最大17倍に向上させる可能性がある。
論文 参考訳(メタデータ) (2025-06-03T17:59:47Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。
我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。
実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文 参考訳(メタデータ) (2023-10-30T13:33:21Z) - Learn Your Tokens: Word-Pooled Tokenization for Language Modeling [11.40976202290724]
言語モデルは典型的には、トークンを長い文字列に組み合わせた決定論的手作業で、テキストをサブワードにトークン化する。
最近のコンテクスト長の圧縮と制限の試みは,単語境界を完全に無視するが有用である。
本稿では,単語境界を利用して単語表現にバイト/文字をプールする「学習する」方式について考察する。
論文 参考訳(メタデータ) (2023-10-17T23:34:39Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - ngram-OAXE: Phrase-Based Order-Agnostic Cross Entropy for
Non-Autoregressive Machine Translation [51.06378042344563]
オートレグレッシブ翻訳(NAT)におけるマルチモーダリティの効果を改善できる新しい訓練用Oaxe損失が証明された
我々は、ngram 句間の並べ替えのみを許し、句内の単語順序の厳密な一致をいまだ必要とすることで oaxe を拡張する。
さらに分析したところ、ngram-oaxeは実際にngram句の翻訳を改善し、文構造をより良くモデル化してより流動的な翻訳を生成することがわかった。
論文 参考訳(メタデータ) (2022-10-08T11:39:15Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。