論文の概要: Research without Re-search: Maximal Update Parametrization Yields
Accurate Loss Prediction across Scales
- arxiv url: http://arxiv.org/abs/2304.06875v3
- Date: Sun, 3 Sep 2023 06:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 05:46:04.516134
- Title: Research without Re-search: Maximal Update Parametrization Yields
Accurate Loss Prediction across Scales
- Title(参考訳): 再調査なしの研究: 最大更新パラメトリゼーションはスケールにわたって正確な損失予測をもたらす
- Authors: Yiqun Yao and Yequan Wang
- Abstract要約: 言語モデルが拡大するにつれて、小さなモデルの結論が簡単に大きなモデルに変換されないため、研究のアイデアを検証するのにますますコストがかかる。
本稿では,重計算を伴わない任意のモデルスケールを対象とした信頼性のある学術研究への第一歩として,新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 15.327936562875921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As language models scale up, it becomes increasingly expensive to verify
research ideas because conclusions on small models do not trivially transfer to
large ones. A possible solution is to establish a generic system that directly
predicts some metrics for large models solely based on the results and
hyperparameters from small models. Existing methods based on scaling laws
require hyperparameter search on the largest models, which is impractical with
limited resources. We address this issue by presenting our discoveries
indicating that Maximal Update parametrization (Mup) enables accurate fitting
of scaling laws for hyperparameters close to common loss basins, without any
search. Thus, different models can be directly compared on large scales with
loss prediction even before the training starts. We propose a new paradigm as a
first step towards reliable academic research for any model scale without heavy
computation. Code is publicly available at
https://github.com/cofe-ai/Mu-scaling.
- Abstract(参考訳): 言語モデルが拡大するにつれて、小さなモデルの結論が容易に大きなモデルに移行しないため、研究アイデアの検証がますます高価になる。
考えられる解決策は、小さなモデルの結果とハイパーパラメータのみに基づいて、大規模モデルのメトリクスを直接予測する汎用システムを確立することである。
スケーリングの法則に基づく既存の手法では,最大モデルのハイパーパラメータ探索が必要となる。
我々は,最大更新パラメトリゼーション(Mup)により,一般の損失流域に近接するハイパーパラメータのスケーリング法則を,探索なしで正確に適合させることができることを示す。
これにより、トレーニング開始前であっても、複数のモデルを直接比較して損失予測を行うことができる。
重計算を伴わないモデルスケールの信頼性の高い学術研究への第一歩として,新しいパラダイムを提案する。
コードはhttps://github.com/cofe-ai/mu-scalingで公開されている。
関連論文リスト
- Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。
提案手法は4つの標準NLPベンチマークを用いて検証する。
いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文 参考訳(メタデータ) (2024-11-25T01:48:09Z) - Warmstarting for Scaling Language Models [47.691182347349894]
モデルのサイズを拡大してパフォーマンスをスケールすることは、現在の大規模言語モデルパラダイムにとって非常にうまく機能しています。
現代の規模のデータとモデルに対する高いトレーニングコストは、そのようなトレーニング設定のチューニング方法と到着方法の理解の欠如をもたらす。
大型モデルの事前訓練のコストを改善する1つの方法は、より安価にチューニングできる小型モデルから大規模なトレーニングをウォームスタートさせることである。
論文 参考訳(メタデータ) (2024-11-11T20:02:29Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization [22.90653167145603]
本稿では,事前学習した言語モデルのパラメータを,隠れ次元が増大する大規模モデルのパラメータに拡張する手法であるHyperCloningを紹介する。
結果として、より大きなモデルは、トレーニングを開始する前に、より小さなモデルの予測能力と精度をすでに継承している。
論文 参考訳(メタデータ) (2024-09-19T16:50:26Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Selecting Large Language Model to Fine-tune via Rectified Scaling Law [74.84096546112215]
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。
微調整スケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。
本法則を利用して,資源消費の数百倍少ない最適モデルを選択する新しいLCM選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-04T01:55:00Z) - "Medium" LMs of Code in the Era of LLMs: Lessons From StackOverflow [5.036273913335737]
SOBertBase、109Mパラメータを持つSOBertBaseと、762Mパラメータを持つSOBertLargeの2つのモデルを、それぞれ$187$と$800$の予算でトレーニングします。
その結果、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための、強力で安価な代替手段が得られることが示された。
論文 参考訳(メタデータ) (2023-06-05T21:38:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。