論文の概要: Research without Re-search: Maximal Update Parametrization Yields
Accurate Loss Prediction across Scales
- arxiv url: http://arxiv.org/abs/2304.06875v2
- Date: Sat, 29 Apr 2023 03:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 17:55:28.314989
- Title: Research without Re-search: Maximal Update Parametrization Yields
Accurate Loss Prediction across Scales
- Title(参考訳): 再調査なしの研究: 最大更新パラメトリゼーションはスケールにわたって正確な損失予測をもたらす
- Authors: Yiqun Yao and Yequan Wang
- Abstract要約: 言語モデルが拡大するにつれて、小さなモデルの結論が簡単に大きなモデルに変換されないため、研究のアイデアを検証するのにますますコストがかかる。
本稿では,重計算を伴わない任意のモデルスケールを対象とした信頼性のある学術研究への第一歩として,新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 2.7869540661896557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As language models scale up, it becomes increasingly expensive to verify
research ideas because conclusions on small models do not trivially transfer to
large ones. A possible solution is to establish a generic system that directly
predicts some metrics for large models solely based on the results and
hyperparameters from small models. Existing methods based on scaling laws
require hyperparameter search on the largest models, which is impractical with
limited resources. We address this issue by presenting our discoveries
indicating that Maximal Update parametrization (muP) enables accurate fitting
of scaling laws for hyperparameters close to common loss basins, without any
search. Thus, different models can be directly compared on large scales with
loss prediction even before the training starts. We propose a new paradigm as a
first step towards reliable academic research for any model scale without heavy
computation. Code will be publicly available shortly.
- Abstract(参考訳): 言語モデルが拡大するにつれて、小さなモデルの結論が容易に大きなモデルに移行しないため、研究アイデアの検証がますます高価になる。
考えられる解決策は、小さなモデルの結果とハイパーパラメータのみに基づいて、大規模モデルのメトリクスを直接予測する汎用システムを確立することである。
スケーリングの法則に基づく既存の手法では,最大モデルのハイパーパラメータ探索が必要となる。
我々は,最大更新パラメトリゼーション(muP)により,共通損失盆地近傍のハイパーパラメータのスケーリング法則を,探索なしで正確に適合させることができることを示す発見を提示することによって,この問題に対処する。
これにより、トレーニング開始前であっても、複数のモデルを直接比較して損失予測を行うことができる。
重計算を伴わないモデルスケールの信頼性の高い学術研究への第一歩として,新しいパラダイムを提案する。
コードは近々公開される予定だ。
関連論文リスト
- Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。
少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。
検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文 参考訳(メタデータ) (2024-04-03T16:33:42Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [60.52921835351632]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Language models scale reliably with over-training and on downstream
tasks [116.41529786970355]
スケーリング法則は言語モデルを開発する上で有用なガイドである。
現在のスケーリング研究と、言語モデルが最終的にトレーニングされ、評価される方法には、まだギャップがあります。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Selecting Large Language Model to Fine-tune via Rectified Scaling Law [77.3311626196681]
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。
微調整スケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。
本法則を利用して,資源消費の数百倍少ない最適モデルを選択する新しいLCM選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-04T01:55:00Z) - "Medium" LMs of Code in the Era of LLMs: Lessons From StackOverflow [5.036273913335737]
SOBertBase、109Mパラメータを持つSOBertBaseと、762Mパラメータを持つSOBertLargeの2つのモデルを、それぞれ$187$と$800$の予算でトレーニングします。
その結果、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための、強力で安価な代替手段が得られることが示された。
論文 参考訳(メタデータ) (2023-06-05T21:38:30Z) - Honey, I Shrunk the Language: Language Model Behavior at Reduced Scale [5.759319006531332]
マスク付き言語モデリング(MLM)を用いた事前学習の利点を1.25Mパラメータのモデルで示す。
スケール法則を100Mパラメータのモデルに拡張し,ダウンスケーリング効果について検討する。
論文 参考訳(メタデータ) (2023-05-26T21:22:10Z) - Scaling Laws for Acoustic Models [7.906034575114518]
近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルがスムーズなパワー-ロー関係を示すことが示されている。
自動予測符号損失で訓練された音響モデルは、まるで同様のスケーリング法則に従うかのように振る舞うことを示す。
論文 参考訳(メタデータ) (2021-06-11T18:59:24Z) - LogME: Practical Assessment of Pre-trained Models for Transfer Learning [80.24059713295165]
最大エビデンス対数(logme)は、転送学習のための事前学習されたモデルを評価するために用いられる。
ブルートフォースの微調整と比較して、LogMEはウォールクロックタイムで3000times$のスピードアップをもたらします。
論文 参考訳(メタデータ) (2021-02-22T13:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。