論文の概要: 4+3 Phases of Compute-Optimal Neural Scaling Laws
- arxiv url: http://arxiv.org/abs/2405.15074v1
- Date: Thu, 23 May 2024 21:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 18:48:01.468245
- Title: 4+3 Phases of Compute-Optimal Neural Scaling Laws
- Title(参考訳): 計算最適ニューラルスケーリング法則の4+3相
- Authors: Elliot Paquette, Courtney Paquette, Lechao Xiao, Jeffrey Pennington,
- Abstract要約: マロニー、ロバーツ、サリーによって導入された解決可能なニューラルスケーリングモデルについて考察する。
我々は計算制限付き無限データスケーリング法則に関する新しい予測を導出する。
- 参考スコア(独自算出の注目度): 31.72805124311781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the three parameter solvable neural scaling model introduced by Maloney, Roberts, and Sully. The model has three parameters: data complexity, target complexity, and model-parameter-count. We use this neural scaling model to derive new predictions about the compute-limited, infinite-data scaling law regime. To train the neural scaling model, we run one-pass stochastic gradient descent on a mean-squared loss. We derive a representation of the loss curves which holds over all iteration counts and improves in accuracy as the model parameter count grows. We then analyze the compute-optimal model-parameter-count, and identify 4 phases (+3 subphases) in the data-complexity/target-complexity phase-plane. The phase boundaries are determined by the relative importance of model capacity, optimizer noise, and embedding of the features. We furthermore derive, with mathematical proof and extensive numerical evidence, the scaling-law exponents in all of these phases, in particular computing the optimal model-parameter-count as a function of floating point operation budget.
- Abstract(参考訳): マロニー、ロバーツ、サリーによって導入された3つのパラメータ解決可能なニューラルスケーリングモデルを考える。
このモデルには、データ複雑性、ターゲット複雑性、モデルパラメータカウントの3つのパラメータがある。
我々はこのニューラルスケーリングモデルを用いて、計算制限付き無限データスケーリング法則に関する新しい予測を導出する。
ニューラルスケーリングモデルをトレーニングするために、平均二乗損失に対して1パス確率勾配降下を実行する。
モデルパラメータ数が増加するにつれて、全ての反復数を保持し、精度を向上させる損失曲線の表現を導出する。
次に,計算最適モデルパラメータ数を解析し,データ複雑/ターゲット複雑相平面の4相(+3相)を同定する。
位相境界は、モデルキャパシティの相対的重要性、最適化ノイズ、特徴の埋め込みによって決定される。
さらに,これらすべての位相におけるスケーリング則指数,特に浮動小数点演算予算の関数として最適モデルパラメータ数を計算することによって,数学的証明と広範な数値的証拠を導出する。
関連論文リスト
- Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimiax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Stochastic Marginal Likelihood Gradients using Neural Tangent Kernels [78.6096486885658]
線形化されたラプラス近似に下界を導入する。
これらの境界は漸進的な最適化が可能であり、推定精度と計算複雑性とのトレードオフを可能にする。
論文 参考訳(メタデータ) (2023-06-06T19:02:57Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Neural parameter calibration for large-scale multi-agent models [0.7734726150561089]
本稿では,ニューラルネットワークを用いてパラメータの精度の高い確率密度を求める手法を提案する。
2つの組み合わせは、非常に大きなシステムであっても、モデルパラメータの密度を素早く見積もることができる強力なツールを作成する。
論文 参考訳(メタデータ) (2022-09-27T17:36:26Z) - Git Re-Basin: Merging Models modulo Permutation Symmetries [3.5450828190071655]
提案手法は,大規模ネットワークに適合する簡単なアルゴリズムを実例で示す。
我々は、独立に訓練されたモデル間のゼロモード接続の最初のデモ(私たちの知る限り)を実演する。
また、線形モード接続仮説の欠点についても論じる。
論文 参考訳(メタデータ) (2022-09-11T10:44:27Z) - Adaptive LASSO estimation for functional hidden dynamic geostatistical
model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。
このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文 参考訳(メタデータ) (2022-08-10T19:17:45Z) - An Exponentially Increasing Step-size for Parameter Estimation in
Statistical Models [37.63410634069547]
本稿では,ガウス降下(GD)アルゴリズムのステップサイズを指数関数的に増加させることを提案する。
次に、非正規統計モデルの下でパラメータ推定を解くためのEGDアルゴリズムについて検討する。
EGDアルゴリズムの総計算複雑性は、非正則統計モデルにおけるパラメータ推定の解法として、GDよりも最適で指数関数的に安価である。
論文 参考訳(メタデータ) (2022-05-16T21:36:22Z) - Inverting brain grey matter models with likelihood-free inference: a
tool for trustable cytoarchitecture measurements [62.997667081978825]
脳の灰白質細胞構造の特徴は、体密度と体積に定量的に敏感であり、dMRIでは未解決の課題である。
我々は新しいフォワードモデル、特に新しい方程式系を提案し、比較的スパースなb殻を必要とする。
次に,提案手法を逆転させるため,確率自由推論 (LFI) として知られるベイズ解析から最新のツールを適用した。
論文 参考訳(メタデータ) (2021-11-15T09:08:27Z) - Investigating the Relationship Between Dropout Regularization and Model
Complexity in Neural Networks [0.0]
ドロップアウト規則化は、ディープラーニングモデルのばらつきを低減するのに役立つ。
2,000のニューラルネットワークをトレーニングすることにより,ドロップアウト率とモデル複雑性の関係について検討する。
各密層に隠されたユニットの数から、最適なドロップアウト率を予測するニューラルネットワークを構築します。
論文 参考訳(メタデータ) (2021-08-14T23:49:33Z) - Bayesian multiscale deep generative model for the solution of
high-dimensional inverse problems [0.0]
深層確率的生成モデルに基づく新しいマルチスケールベイズ推論手法が導入された。
この方法は、安定性、効率、精度を示しながら、高次元パラメータ推定を可能にする。
論文 参考訳(メタデータ) (2021-02-04T11:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。