論文の概要: Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2503.04715v1
- Date: Thu, 06 Mar 2025 18:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:03.567974
- Title: Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining
- Title(参考訳): 予測可能なスケール: Part I -- 大規模言語モデルの事前学習における最適ハイパーパラメータスケーリング法
- Authors: Houyi Li, Wenzheng Zheng, Jingcheng Hu, Qiufeng Wang, Hanshan Zhang, Zili Wang, Yangshijie Xu, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang,
- Abstract要約: 最適な学習速度は、モデルパラメータとデータサイズの両方とのパワー-法則関係に従うが、最適なバッチサイズは、主にデータサイズでスケールする。
これらの法則は、モデル空間、トレーニングデータ分布、モデル形状のバリエーションにまたがる顕著な堅牢性を示す。
この研究は、Mixture-of-Expertsモデルや高密度トランスなど、異なるモデル形状と構造を統一する最初の研究である。
- 参考スコア(独自算出の注目度): 57.919336816077085
- License:
- Abstract: The impressive capabilities of Large Language Models (LLMs) across diverse tasks are now well-established, yet their effective deployment necessitates careful hyperparameter optimization. Through extensive empirical studies involving grid searches across diverse configurations, we discover universal scaling laws governing these hyperparameters: optimal learning rate follows a power-law relationship with both model parameters and data sizes, while optimal batch size scales primarily with data sizes. Our analysis reveals a convex optimization landscape for hyperparameters under fixed models and data size conditions. This convexity implies an optimal hyperparameter plateau. We contribute a universal, plug-and-play optimal hyperparameter tool for the community. Its estimated values on the test set are merely 0.07\% away from the globally optimal LLM performance found via an exhaustive search. These laws demonstrate remarkable robustness across variations in model sparsity, training data distribution, and model shape. To our best known, this is the first work that unifies different model shapes and structures, such as Mixture-of-Experts models and dense transformers, as well as establishes optimal hyperparameter scaling laws across diverse data distributions. This exhaustive optimization process demands substantial computational resources, utilizing nearly one million NVIDIA H800 GPU hours to train 3,700 LLMs of varying sizes and hyperparameters from scratch and consuming approximately 100 trillion tokens in total. To facilitate reproducibility and further research, we will progressively release all loss measurements and model checkpoints through our designated repository https://step-law.github.io/
- Abstract(参考訳): さまざまなタスクにわたるLarge Language Models(LLM)の印象的な機能は現在、十分に確立されていますが、その効果的なデプロイメントは、注意深いハイパーパラメータ最適化を必要とします。
最適学習速度は、モデルパラメータとデータサイズの両方との電力-法則関係に従い、最適バッチサイズは主にデータサイズでスケールする。
本研究では,固定モデルとデータサイズ条件下でのハイパーパラメータの凸最適化環境を明らかにする。
この凸性は最適なハイパーパラメータ台地を意味する。
我々は,コミュニティに対して,プラグイン・アンド・プレイの最適なハイパーパラメータツールを提供しています。
テストセット上のその推定値は、徹底的な探索によって発見された大域的最適LLM性能からわずか 0.07 % 離れている。
これらの法則は、モデル空間、トレーニングデータ分布、モデル形状のバリエーションにまたがる顕著な堅牢性を示す。
我々の知る限り、これはMixture-of-Expertsモデルや高密度トランスフォーマーのような異なるモデル形状と構造を統一する最初の研究であり、多様なデータ分布にまたがる最適なハイパーパラメータスケーリング法則を確立する。
この徹底的な最適化プロセスは、100万近いNVIDIA H800 GPU時間を利用して、スクラッチから3,700 LLMのさまざまなサイズとハイパーパラメータをトレーニングし、合計100兆トークンを消費するなど、かなりの計算資源を必要とする。
再現性とさらなる研究を容易にするため、指定されたリポジトリ https://step-law.github.io/ を通じて、すべての損失測定とモデルチェックポイントを段階的にリリースします。
関連論文リスト
- Optimization Hyper-parameter Laws for Large Language Models [52.49860340549727]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。
さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。
このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-09-07T09:37:19Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Fairer and More Accurate Tabular Models Through NAS [14.147928131445852]
本稿では,多目的ニューラルアーキテクチャサーチ (NAS) とハイパーパラメータ最適化 (HPO) を,表データの非常に困難な領域への最初の応用として提案する。
我々はNASで精度のみに最適化されたモデルが、本質的に公正な懸念に対処できないことをしばしば示している。
公平性、正確性、あるいは両方において、最先端のバイアス緩和手法を一貫して支配するアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-10-18T17:56:24Z) - Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。
まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文 参考訳(メタデータ) (2023-09-18T06:38:24Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient
Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。
ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-03-15T19:25:01Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z) - Artificial intelligence prediction of stock prices using social media [0.0]
この研究の主な目的は、ツイートを用いて株式市場の動きを予測するLSTMに基づくニューラルネットワークを開発することである。
LSTMネットワークで使用される単語埋め込みは、スタンフォード大学のGloVe埋め込みを使用して初期化されます。
このモデルの最終的なテスト精度は76.14%である。
論文 参考訳(メタデータ) (2021-01-22T07:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。