論文の概要: Research without Re-search: Maximal Update Parametrization Yields
Accurate Loss Prediction across Scales
- arxiv url: http://arxiv.org/abs/2304.06875v3
- Date: Sun, 3 Sep 2023 06:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 05:46:04.516134
- Title: Research without Re-search: Maximal Update Parametrization Yields
Accurate Loss Prediction across Scales
- Title(参考訳): 再調査なしの研究: 最大更新パラメトリゼーションはスケールにわたって正確な損失予測をもたらす
- Authors: Yiqun Yao and Yequan Wang
- Abstract要約: 言語モデルが拡大するにつれて、小さなモデルの結論が簡単に大きなモデルに変換されないため、研究のアイデアを検証するのにますますコストがかかる。
本稿では,重計算を伴わない任意のモデルスケールを対象とした信頼性のある学術研究への第一歩として,新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 15.327936562875921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As language models scale up, it becomes increasingly expensive to verify
research ideas because conclusions on small models do not trivially transfer to
large ones. A possible solution is to establish a generic system that directly
predicts some metrics for large models solely based on the results and
hyperparameters from small models. Existing methods based on scaling laws
require hyperparameter search on the largest models, which is impractical with
limited resources. We address this issue by presenting our discoveries
indicating that Maximal Update parametrization (Mup) enables accurate fitting
of scaling laws for hyperparameters close to common loss basins, without any
search. Thus, different models can be directly compared on large scales with
loss prediction even before the training starts. We propose a new paradigm as a
first step towards reliable academic research for any model scale without heavy
computation. Code is publicly available at
https://github.com/cofe-ai/Mu-scaling.
- Abstract(参考訳): 言語モデルが拡大するにつれて、小さなモデルの結論が容易に大きなモデルに移行しないため、研究アイデアの検証がますます高価になる。
考えられる解決策は、小さなモデルの結果とハイパーパラメータのみに基づいて、大規模モデルのメトリクスを直接予測する汎用システムを確立することである。
スケーリングの法則に基づく既存の手法では,最大モデルのハイパーパラメータ探索が必要となる。
我々は,最大更新パラメトリゼーション(Mup)により,一般の損失流域に近接するハイパーパラメータのスケーリング法則を,探索なしで正確に適合させることができることを示す。
これにより、トレーニング開始前であっても、複数のモデルを直接比較して損失予測を行うことができる。
重計算を伴わないモデルスケールの信頼性の高い学術研究への第一歩として,新しいパラダイムを提案する。
コードはhttps://github.com/cofe-ai/mu-scalingで公開されている。
関連論文リスト
- Language models scale reliably with over-training and on downstream
tasks [116.41529786970355]
スケーリング法則は言語モデルを開発する上で有用なガイドである。
現在のスケーリング研究と、言語モデルが最終的にトレーニングされ、評価される方法には、まだギャップがあります。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Selecting Large Language Model to Fine-tune via Rectified Scaling Law [77.3311626196681]
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。
微調整スケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。
本法則を利用して,資源消費の数百倍少ない最適モデルを選択する新しいLCM選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-04T01:55:00Z) - Non-Vacuous Generalization Bounds for Large Language Models [83.10315303618225]
事前訓練された大言語モデルに対して、最初の空でない一般化境界を提供する。
より大きいモデルはより優れた一般化バウンダリを持ち、より小さなモデルよりも圧縮性が高いことがわかった。
論文 参考訳(メタデータ) (2023-12-28T17:58:42Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [88.20708472619356]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - Dropout Inference with Non-Uniform Weight Scaling [6.726255259929496]
正規化としてのドロップアウトは、ニューラルネットワークのトレーニングの過度な適合を防ぐために広く使用されている。
本研究では,いくつかのサブモデルが高バイアスモデルに近づき,一様でないウェイトスケーリングが推論の近似として優れているシナリオを実証する。
論文 参考訳(メタデータ) (2022-04-27T16:41:12Z) - Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。
小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:53:14Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Is the Number of Trainable Parameters All That Actually Matters? [2.624902795082451]
スケーリング法を仮に騙し、より大規模なモデルを安価にトレーニングする方法を調査する。
テスト損失と計算の間のスケーリングの関係は、トレーニング可能なパラメータの実際の数にのみ依存することがわかった。
論文 参考訳(メタデータ) (2021-09-24T12:43:58Z) - Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks [38.153825455980645]
最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
論文 参考訳(メタデータ) (2020-12-16T05:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。