Fugu-MT 論文翻訳(概要): Research without Re-search: Maximal Update Parametrization Yields Accurate Loss Prediction across Scales

論文の概要: Research without Re-search: Maximal Update Parametrization Yields Accurate Loss Prediction across Scales

arxiv url: http://arxiv.org/abs/2304.06875v3
Date: Sun, 3 Sep 2023 06:55:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-07 05:46:04.516134
Title: Research without Re-search: Maximal Update Parametrization Yields Accurate Loss Prediction across Scales
Title（参考訳）: 再調査なしの研究: 最大更新パラメトリゼーションはスケールにわたって正確な損失予測をもたらす
Authors: Yiqun Yao and Yequan Wang
Abstract要約: 言語モデルが拡大するにつれて、小さなモデルの結論が簡単に大きなモデルに変換されないため、研究のアイデアを検証するのにますますコストがかかる。本稿では,重計算を伴わない任意のモデルスケールを対象とした信頼性のある学術研究への第一歩として,新しいパラダイムを提案する。
参考スコア（独自算出の注目度）: 15.327936562875921
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As language models scale up, it becomes increasingly expensive to verify research ideas because conclusions on small models do not trivially transfer to large ones. A possible solution is to establish a generic system that directly predicts some metrics for large models solely based on the results and hyperparameters from small models. Existing methods based on scaling laws require hyperparameter search on the largest models, which is impractical with limited resources. We address this issue by presenting our discoveries indicating that Maximal Update parametrization (Mup) enables accurate fitting of scaling laws for hyperparameters close to common loss basins, without any search. Thus, different models can be directly compared on large scales with loss prediction even before the training starts. We propose a new paradigm as a first step towards reliable academic research for any model scale without heavy computation. Code is publicly available at https://github.com/cofe-ai/Mu-scaling.
Abstract（参考訳）: 言語モデルが拡大するにつれて、小さなモデルの結論が容易に大きなモデルに移行しないため、研究アイデアの検証がますます高価になる。考えられる解決策は、小さなモデルの結果とハイパーパラメータのみに基づいて、大規模モデルのメトリクスを直接予測する汎用システムを確立することである。スケーリングの法則に基づく既存の手法では,最大モデルのハイパーパラメータ探索が必要となる。我々は,最大更新パラメトリゼーション(Mup)により,一般の損失流域に近接するハイパーパラメータのスケーリング法則を,探索なしで正確に適合させることができることを示す。これにより、トレーニング開始前であっても、複数のモデルを直接比較して損失予測を行うことができる。重計算を伴わないモデルスケールの信頼性の高い学術研究への第一歩として,新しいパラダイムを提案する。コードはhttps://github.com/cofe-ai/mu-scalingで公開されている。

関連論文リスト

Predictable Scale: Part II, Farseer: A Refined Scaling Law in Large Language Models [62.3458061002951]
本稿では,新たなスケール法であるFarseerを紹介した。モデル損失曲面 $L(N,D)$ を体系的に構築することにより、Farseer は以前の法則よりも経験的データに非常によく適合する。我々の手法は正確で頑健で、非常に一般化可能な予測をもたらし、優れた外挿能力を示す。
論文参考訳（メタデータ） (2025-06-12T17:59:23Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文参考訳（メタデータ） (2025-01-21T20:23:22Z)
Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。提案手法は4つの標準NLPベンチマークを用いて検証する。いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文参考訳（メタデータ） (2024-11-25T01:48:09Z)
Warmstarting for Scaling Language Models [47.691182347349894]
モデルのサイズを拡大してパフォーマンスをスケールすることは、現在の大規模言語モデルパラダイムにとって非常にうまく機能しています。現代の規模のデータとモデルに対する高いトレーニングコストは、そのようなトレーニング設定のチューニング方法と到着方法の理解の欠如をもたらす。大型モデルの事前訓練のコストを改善する1つの方法は、より安価にチューニングできる小型モデルから大規模なトレーニングをウォームスタートさせることである。
論文参考訳（メタデータ） (2024-11-11T20:02:29Z)
A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文参考訳（メタデータ） (2024-10-15T17:59:10Z)
Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization [22.90653167145603]
本稿では,事前学習した言語モデルのパラメータを,隠れ次元が増大する大規模モデルのパラメータに拡張する手法であるHyperCloningを紹介する。結果として、より大きなモデルは、トレーニングを開始する前に、より小さなモデルの予測能力と精度をすでに継承している。
論文参考訳（メタデータ） (2024-09-19T16:50:26Z)
Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文参考訳（メタデータ） (2024-03-13T13:54:00Z)
Selecting Large Language Model to Fine-tune via Rectified Scaling Law [74.84096546112215]
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。微調整スケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。本法則を利用して,資源消費の数百倍少ない最適モデルを選択する新しいLCM選択アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-02-04T01:55:00Z)
"Medium" LMs of Code in the Era of LLMs: Lessons From StackOverflow [5.036273913335737]
SOBertBase、109Mパラメータを持つSOBertBaseと、762Mパラメータを持つSOBertLargeの2つのモデルを、それぞれ$187$と$800$の予算でトレーニングします。その結果、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための、強力で安価な代替手段が得られることが示された。
論文参考訳（メタデータ） (2023-06-05T21:38:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。