論文の概要: Optimal Embedding Learning Rate in LLMs: The Effect of Vocabulary Size
- arxiv url: http://arxiv.org/abs/2506.15025v1
- Date: Tue, 17 Jun 2025 23:57:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.507896
- Title: Optimal Embedding Learning Rate in LLMs: The Effect of Vocabulary Size
- Title(参考訳): LLMにおける最適埋め込み学習率:語彙サイズの影響
- Authors: Soufiane Hayou, Liyuan Liu,
- Abstract要約: 本稿では,語彙サイズが学習力学に及ぼす影響を理論的に分析する。
語彙のサイズが大きくなるにつれて、トレーニングのダイナミクスは、$mu$Pレギュレーションと他のレギュレーションとの間にあることを示します。
解析の結果、LV系では、隠蔽LR比に対する最適埋め込みLRは、大まかに$Theta(sqrtwidth)$とスケールすべきであることが判明した。
- 参考スコア(独自算出の注目度): 12.916861128475272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretraining large language models is a costly process. To make this process more efficient, several methods have been proposed to optimize model architecture/parametrization and hardware use. On the parametrization side, $\mu P$ (Maximal Update Parametrization) parametrizes model weights and learning rate (LR) in a way that makes hyperparameters (HPs) transferable with width (embedding dimension): HPs can be tuned for a small model and used for larger models without additional tuning. While $\mu$P showed impressive results in practice, recent empirical studies have reported conflicting observations when applied to LLMs. One limitation of the theory behind $\mu$P is the fact that input dimension (vocabulary size in LLMs) is considered fixed when taking the width to infinity. This is unrealistic since vocabulary size is generally much larger than width in practice. In this work, we provide a theoretical analysis of the effect of vocabulary size on training dynamics, and subsequently show that as vocabulary size increases, the training dynamics \emph{interpolate between the $\mu$P regime and another regime that we call Large Vocab (LV) Regime}, where optimal scaling rules are different from those predicted by $\mu$P. Our analysis reveals that in the LV regime, the optimal embedding LR to hidden LR ratio should roughly scale as $\Theta(\sqrt{width})$, surprisingly close to the empirical findings previously reported in the literature, and different from the $\Theta(width)$ ratio predicted by $\mu$P. We conduct several experiments to validate our theory, and pretrain a 1B model from scratch to show the benefit of our suggested scaling rule for the embedding LR.
- Abstract(参考訳): 大きな言語モデルの事前学習はコストのかかるプロセスである。
このプロセスをより効率的にするために、モデルアーキテクチャ/パラメトリゼーションとハードウェア利用を最適化するいくつかの手法が提案されている。
パラメトリゼーション側では、$\mu P$ (Maximal Update Parametrization) は、ハイパーパラメータ(HP)を幅(埋め込み次元)で転送可能にする方法でモデルウェイトと学習率(LR)をパラメトリズする。
$\mu$Pは実際に顕著な結果を示したが、最近の実証実験では、LSMに適用した場合に矛盾する観察結果が報告されている。
The theory of the theory behind $\mu$P is that input dimension (vocabulary size in LLMs) is fixed when the width to infinity.
これは非現実的であるため、語彙のサイズは実際には幅よりもはるかに大きい。
本研究では,語彙サイズがトレーニング力学に与える影響を理論的に分析し,語彙サイズが大きくなるにつれて,大語彙(LV)レジーム(LV)レジーム(LV)と呼ばれる,大語彙(LV)レジーム(LV)レジーム(LV)と呼ばれる)間のトレーニング力学が,$\mu$P(LV)レジーム(LV)レジーム)と呼ばれる。
解析の結果,LV系では最大埋め込みLR比は$\Theta(\sqrt{width})$と大まかにスケールし,文献で報告された実験結果に驚くほど近い値で,$\mu$Pで予測される$\Theta(width)$比とは異なる値であることがわかった。
我々は,我々の理論を検証するためにいくつかの実験を行い,埋め込みLRに対して提案したスケーリングルールの利点を示すために,スクラッチから1Bモデルを事前訓練する。
関連論文リスト
- Parallel Scaling Law for Language Models [45.799251718923614]
モデルの並列計算をトレーニング時間と推論時間の両方で増加させるという,3番目の,より推論効率のよいスケーリングパラダイムを導入します。
理論的に新しいスケーリング法則を提案し,それを大規模事前学習により検証することにより,$P$並列ストリームを持つモデルがより優れた推論効率を示しつつパラメータを$O(log P)$にスケーリングするのと類似していることを示す。
論文 参考訳(メタデータ) (2025-05-15T16:24:45Z) - Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [58.26575378840226]
最適な学習速度は、モデルパラメータとデータサイズの両方とのパワー-法則関係に従うが、最適なバッチサイズは、主にデータサイズでスケールする。
この研究は、Mixture-of-Expertsモデルや高密度トランスなど、異なるモデル形状と構造を統一する最初の研究である。
論文 参考訳(メタデータ) (2025-03-06T18:58:29Z) - Improving LLM General Preference Alignment via Optimistic Online Mirror Descent [57.622821649679786]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の嗜好の整合において顕著な効果を示した。
本稿では,Bradley-Terry (BT) モデル仮定を廃止し,汎用ゲームとして定式化された LLM のアライメントについて検討する。
提案手法は双対性ギャップ上の$O(T-1)$バウンドを達成し、以前の$O(T-1/2)$の結果を改善することを示す。
論文 参考訳(メタデータ) (2025-02-24T05:24:52Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies [46.440917272424315]
大規模言語モデル(LLM)のスケーリングに関する研究は、主に、語彙サイズの役割を見越して、モデルパラメータとトレーニングデータサイズに重点を置いている。
本稿では,計算-最適語彙サイズを予測するための3つの補完的手法を提案する。
予測された最適な語彙サイズを採用することで、一般的に使用される語彙サイズよりも下流のパフォーマンスが一貫して向上する。
論文 参考訳(メタデータ) (2024-07-18T15:58:54Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。
トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。
NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z) - Training with Multi-Layer Embeddings for Model Reduction [0.9046327456472286]
複数層埋め込み学習アーキテクチャを導入し, 一連の線形層を通して埋め込みを訓練する。
その結果,メモリフットプリントの精度が向上し,dを4~8倍削減できることがわかった。
論文 参考訳(メタデータ) (2020-06-10T02:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。