Fugu-MT 論文翻訳(概要): Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

論文の概要: Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

arxiv url: http://arxiv.org/abs/2407.13623v2
Date: Fri, 26 Jul 2024 12:59:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-29 15:38:30.199485
Title: Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
Title（参考訳）: 語彙によるスケーリング法則:より大きなモデルはより大きな語彙を保存する
Authors: Chaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong,
Abstract要約: 大規模言語モデル(LLM)のスケーリングに関する研究は、主に、語彙サイズの役割を見越して、モデルパラメータとトレーニングデータサイズに重点を置いている。本稿では,計算-最適語彙サイズを予測するための3つの補完的手法を提案する。本研究は,効率的なスケーリングのために,モデルパラメータと語彙サイズを共同で検討する必要があることを強調する。
参考スコア（独自算出の注目度）: 46.440917272424315
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Research on scaling large language models (LLMs) has primarily focused on model parameters and training data size, overlooking the role of vocabulary size. We investigate how vocabulary size impacts LLM scaling laws by training models ranging from 33M to 3B parameters on up to 500B characters with various vocabulary configurations. We propose three complementary approaches for predicting the compute-optimal vocabulary size: IsoFLOPs analysis, derivative estimation, and parametric fit of the loss function. Our approaches converge on the same result that the optimal vocabulary size depends on the available compute budget and that larger models deserve larger vocabularies. However, most LLMs use too small vocabulary sizes. For example, we predict that the optimal vocabulary size of Llama2-70B should have been at least 216K, 7 times larger than its vocabulary of 32K. We validate our predictions empirically by training models with 3B parameters across different FLOPs budgets. Adopting our predicted optimal vocabulary size consistently improves downstream performance over commonly used vocabulary sizes. By increasing the vocabulary size from the conventional 32K to 43K, we improve performance on ARC-Challenge from 29.1 to 32.0 with the same 2.3e21 FLOPs. Our work emphasizes the necessity of jointly considering model parameters and vocabulary size for efficient scaling.
Abstract（参考訳）: 大規模言語モデル(LLM)のスケーリングに関する研究は、主に、語彙サイズの役割を見越して、モデルパラメータとトレーニングデータサイズに重点を置いている。語彙サイズがLLMスケーリング法にどう影響するかを,最大500B文字における33Mから3Bパラメータのトレーニングモデルを用いて検討した。本稿では,IsoFLOPs解析,微分推定,損失関数のパラメトリック適合という,計算-最適語彙サイズを予測するための3つの補完的手法を提案する。我々のアプローチは、最適な語彙サイズが利用可能な計算予算に依存し、より大きなモデルはより大きな語彙に値するという同じ結果に収束する。しかし、ほとんどのLLMは語彙サイズが小さすぎる。例えば、Llama2-70Bの最適な語彙サイズは少なくとも216Kであり、32Kの語彙の7倍である。 FLOPの予算の異なる3Bパラメータのトレーニングモデルを用いて予測を実証的に検証する。予測された最適な語彙サイズを採用することで、一般的に使用される語彙サイズよりも下流のパフォーマンスが一貫して向上する。従来の32Kから43Kへの語彙サイズ拡大により、同じ2.3e21 FLOPでARC-Challengeの性能を29.1から32.0に改善した。本研究は,効率的なスケーリングのために,モデルパラメータと語彙サイズを共同で検討する必要があることを強調する。

関連論文リスト

The Role of Vocabularies in Learning Sparse Representations for Ranking [0.08949202626090576]
SPLADEモデルにおける語彙の役割と検索効率と有効性との関係について検討する。 100Kサイズの出力語彙を持つBERTモデルを構築し、ESPLADE事前学習法とランダムに1つを構築した。実験により, プルーニングを施すと, 通常のSPLADEモデルに比べて2つのモデルが有効であることが確認された。
論文参考訳（メタデータ） (2025-09-20T10:44:26Z)
Compute-Optimal Scaling for Value-Based Deep RL [99.680827753493]
オンライン価値ベースディープRLの計算スケーリングについて検討する。解析の結果,モデルサイズ,バッチサイズ,UTD間の微妙な相互作用が明らかになった。この現象を理解するためのメンタルモデルを提供し、バッチサイズとUTDを選択するためのガイドラインを構築します。
論文参考訳（メタデータ） (2025-08-20T17:54:21Z)
Optimal Embedding Learning Rate in LLMs: The Effect of Vocabulary Size [12.916861128475272]
本稿では,語彙サイズが学習力学に及ぼす影響を理論的に分析する。語彙のサイズが大きくなるにつれて、トレーニングのダイナミクスは、$mu$Pレギュレーションと他のレギュレーションとの間にあることを示します。解析の結果、LV系では、隠蔽LR比に対する最適埋め込みLRは、大まかに$Theta(sqrtwidth)$とスケールすべきであることが判明した。
論文参考訳（メタデータ） (2025-06-17T23:57:30Z)
Self-Vocabularizing Training for Neural Machine Translation [15.700883057259931]
トレーニングされた翻訳モデルは、元のBPE語彙とは別個のBPE語彙反復を用いて、バイトペア符号化サブセット(BPE)を使用するように誘導される。我々は,より小さく,より最適な語彙を自己選択する反復的手法である自己語彙学習を提案し,最大1.49BLEUの改善をもたらす。
論文参考訳（メタデータ） (2025-03-18T02:21:07Z)
Scaling LLM Pre-training with Vocabulary Curriculum [0.0]
本稿では,語彙サイズに対して,対数線形スケーリングゲインによる事前学習効率を向上させる手法である語彙カリキュラム学習を導入する。提案手法は,エントロピー誘導語彙拡張とモデル最適化を交互に行い,多様なトークン化粒度にまたがる変換可能な表現を学習する。小規模GPTモデルによる実験により,スケーリング効率が向上し,動的トークン化の有効性が向上した。
論文参考訳（メタデータ） (2025-02-25T07:18:29Z)
OWLS: Scaling Laws for Multilingual Speech Recognition and Translation Models [55.63479003621053]
本稿では,多言語音声認識および翻訳モデルのオープンアクセススイートであるOWLSを紹介する。 OWLSを使用してニューラルスケーリング法則を導出し、スケーリング時に最終的なパフォーマンスが確実に予測できることを示す。大規模音声モデルにおける創発的能力の発見により,OWLSを新たな研究方向の電力源として活用する方法を示す。
論文参考訳（メタデータ） (2025-02-14T18:51:40Z)
Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling [10.985444895887207]
本稿では,言語モデリング性能を向上させるために,入力語彙と出力語彙を分離するフレームワークであるOver-Tokenized Transformersを紹介する。入力語彙サイズとトレーニング損失の関係を明らかにすることで,より大きな入力語彙がモデル性能を継続的に向上することを示す。本研究は, スケーリング法則におけるトークン化の重要性を強調し, トークン化設計の実践的洞察を提供するものである。
論文参考訳（メタデータ） (2025-01-28T14:15:42Z)
Large Vocabulary Size Improves Large Language Models [28.83786065307658]
単語語彙サイズと大規模言語モデル(LLM)の性能の関係について検討する。実験結果から,LLMの語彙サイズが大きくなると性能が向上することがわかった。事前定義された語彙の代わりに新しい語彙を使用するための簡単な方法を導入する。
論文参考訳（メタデータ） (2024-06-24T10:27:07Z)
The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。 Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文参考訳（メタデータ） (2023-11-16T09:35:50Z)
Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2～20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文参考訳（メタデータ） (2023-05-31T15:02:02Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
Fast Vocabulary Projection Method via Clustering for Multilingual Machine Translation on GPU [6.1646755570223934]
本稿では,クラスタリングによる高速な語彙投影法を提案する。提案手法はボクサブ射出工程を最大2.6倍高速化する。また,提案手法が元のモデルからの翻訳の質を保っていることを検証するために,広範囲な人的評価を行う。
論文参考訳（メタデータ） (2022-08-14T16:10:14Z)
Allocating Large Vocabulary Capacity for Cross-lingual Language Model Pre-training [59.571632468137075]
最近の言語間言語モデルでは,語彙の容量が限られているため,多くの言語が不足していることがわかった。本稿では,各言語の語彙能力を決定するアルゴリズムであるVoCapを提案する。この問題に対処するために,k-NNに基づくターゲットサンプリングを提案し,コストの高いソフトマックスを高速化する。
論文参考訳（メタデータ） (2021-09-15T14:04:16Z)
Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。言語モデルのための完全合成出力埋め込み層を提案する。我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文参考訳（メタデータ） (2020-09-24T07:21:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。