論文の概要: Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
- arxiv url: http://arxiv.org/abs/2407.13623v1
- Date: Thu, 18 Jul 2024 15:58:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 14:41:26.077742
- Title: Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
- Title(参考訳): 語彙によるスケーリング法則:より大きなモデルはより大きな語彙を保存する
- Authors: Chaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong,
- Abstract要約: 大きな語彙は、少ないトークンで文を表現することでより効率的なトークン化を可能にするが、希少トークンに不適合な表現のリスクも増大させる。
計算-最適語彙サイズを予測するための3つの手法を提案する。
本研究は,効率的なスケーリングのために,モデルパラメータと語彙サイズを共同で検討する必要があることを強調する。
- 参考スコア(独自算出の注目度): 46.440917272424315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research on scaling large language models (LLMs) has primarily focused on model parameters and training data size, overlooking the role of vocabulary size. % Intuitively, larger vocabularies enable more efficient tokenization by representing sentences with fewer tokens, but they also increase the risk of under-fitting representations for rare tokens. We investigate how vocabulary size impacts LLM scaling laws by training models ranging from 33M to 3B parameters on up to 500B characters with various vocabulary configurations. We propose three complementary approaches for predicting the compute-optimal vocabulary size: IsoFLOPs analysis, derivative estimation, and parametric fit of the loss function. Our approaches converge on the same result that the optimal vocabulary size depends on the available compute budget and that larger models deserve larger vocabularies. However, most LLMs use too small vocabulary sizes. For example, we predict that the optimal vocabulary size of Llama2-70B should have been at least 216K, 7 times larger than its vocabulary of 32K. We validate our predictions empirically by training models with 3B parameters across different FLOPs budgets. Adopting our predicted optimal vocabulary size consistently improves downstream performance over commonly used vocabulary sizes. By increasing the vocabulary size from the conventional 32K to 43K, we improve performance on ARC-Challenge from 29.1 to 32.0 with the same 2.3e21 FLOPs. Our work emphasizes the necessity of jointly considering model parameters and vocabulary size for efficient scaling.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリングに関する研究は、主に、語彙サイズの役割を見越して、モデルパラメータとトレーニングデータサイズに重点を置いている。
% 直感的には、より大きな語彙は、少ないトークンで文を表現することでより効率的なトークン化を可能にするが、希少トークンに不適合な表現のリスクも増大させる。
語彙サイズがLLMスケーリング法にどう影響するかを,最大500B文字における33Mから3Bパラメータのトレーニングモデルを用いて検討した。
本稿では,IsoFLOPs解析,微分推定,損失関数のパラメトリック適合という,計算-最適語彙サイズを予測するための3つの補完的手法を提案する。
我々のアプローチは、最適な語彙サイズが利用可能な計算予算に依存し、より大きなモデルはより大きな語彙に値するという同じ結果に収束する。
しかし、ほとんどのLLMは語彙サイズが小さすぎる。
例えば、Llama2-70Bの最適な語彙サイズは少なくとも216Kであり、32Kの語彙の7倍である。
FLOPの予算の異なる3Bパラメータのトレーニングモデルを用いて予測を実証的に検証する。
予測された最適な語彙サイズを採用することで、一般的に使用される語彙サイズよりも下流のパフォーマンスが一貫して向上する。
従来の32Kから43Kへの語彙サイズ拡大により、同じ2.3e21 FLOPでARC-Challengeの性能を29.1から32.0に改善した。
本研究は,効率的なスケーリングのために,モデルパラメータと語彙サイズを共同で検討する必要があることを強調する。
関連論文リスト
- Large Vocabulary Size Improves Large Language Models [28.83786065307658]
単語語彙サイズと大規模言語モデル(LLM)の性能の関係について検討する。
実験結果から,LLMの語彙サイズが大きくなると性能が向上することがわかった。
事前定義された語彙の代わりに新しい語彙を使用するための簡単な方法を導入する。
論文 参考訳(メタデータ) (2024-06-24T10:27:07Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2~20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文 参考訳(メタデータ) (2023-05-31T15:02:02Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Fast Vocabulary Projection Method via Clustering for Multilingual
Machine Translation on GPU [6.1646755570223934]
本稿では,クラスタリングによる高速な語彙投影法を提案する。
提案手法はボクサブ射出工程を最大2.6倍高速化する。
また,提案手法が元のモデルからの翻訳の質を保っていることを検証するために,広範囲な人的評価を行う。
論文 参考訳(メタデータ) (2022-08-14T16:10:14Z) - Allocating Large Vocabulary Capacity for Cross-lingual Language Model
Pre-training [59.571632468137075]
最近の言語間言語モデルでは,語彙の容量が限られているため,多くの言語が不足していることがわかった。
本稿では,各言語の語彙能力を決定するアルゴリズムであるVoCapを提案する。
この問題に対処するために,k-NNに基づくターゲットサンプリングを提案し,コストの高いソフトマックスを高速化する。
論文 参考訳(メタデータ) (2021-09-15T14:04:16Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。