Fugu-MT 論文翻訳(概要): 4+3 Phases of Compute-Optimal Neural Scaling Laws

論文の概要: 4+3 Phases of Compute-Optimal Neural Scaling Laws

arxiv url: http://arxiv.org/abs/2405.15074v1
Date: Thu, 23 May 2024 21:50:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-27 18:48:01.468245
Title: 4+3 Phases of Compute-Optimal Neural Scaling Laws
Title（参考訳）: 計算最適ニューラルスケーリング法則の4+3相
Authors: Elliot Paquette, Courtney Paquette, Lechao Xiao, Jeffrey Pennington,
Abstract要約: マロニー、ロバーツ、サリーによって導入された解決可能なニューラルスケーリングモデルについて考察する。我々は計算制限付き無限データスケーリング法則に関する新しい予測を導出する。
参考スコア（独自算出の注目度）: 31.72805124311781
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the three parameter solvable neural scaling model introduced by Maloney, Roberts, and Sully. The model has three parameters: data complexity, target complexity, and model-parameter-count. We use this neural scaling model to derive new predictions about the compute-limited, infinite-data scaling law regime. To train the neural scaling model, we run one-pass stochastic gradient descent on a mean-squared loss. We derive a representation of the loss curves which holds over all iteration counts and improves in accuracy as the model parameter count grows. We then analyze the compute-optimal model-parameter-count, and identify 4 phases (+3 subphases) in the data-complexity/target-complexity phase-plane. The phase boundaries are determined by the relative importance of model capacity, optimizer noise, and embedding of the features. We furthermore derive, with mathematical proof and extensive numerical evidence, the scaling-law exponents in all of these phases, in particular computing the optimal model-parameter-count as a function of floating point operation budget.
Abstract（参考訳）: マロニー、ロバーツ、サリーによって導入された3つのパラメータ解決可能なニューラルスケーリングモデルを考える。このモデルには、データ複雑性、ターゲット複雑性、モデルパラメータカウントの3つのパラメータがある。我々はこのニューラルスケーリングモデルを用いて、計算制限付き無限データスケーリング法則に関する新しい予測を導出する。ニューラルスケーリングモデルをトレーニングするために、平均二乗損失に対して1パス確率勾配降下を実行する。モデルパラメータ数が増加するにつれて、全ての反復数を保持し、精度を向上させる損失曲線の表現を導出する。次に,計算最適モデルパラメータ数を解析し,データ複雑/ターゲット複雑相平面の4相(+3相)を同定する。位相境界は、モデルキャパシティの相対的重要性、最適化ノイズ、特徴の埋め込みによって決定される。さらに,これらすべての位相におけるスケーリング則指数,特に浮動小数点演算予算の関数として最適モデルパラメータ数を計算することによって,数学的証明と広範な数値的証拠を導出する。

関連論文リスト

Complexity Scaling Laws for Neural Models using Combinatorial Optimization [3.4585775092874163]
問題複雑性に基づくスケーリング法則を策定する。我々は、解空間サイズと表現空間サイズという2つの基本的な複雑さの尺度を解析する。最適化はスムーズなコストトレンドを促進し,解釈可能な損失がなくても有意義なスケーリング法則を得ることができることを示す。
論文参考訳（メタデータ） (2025-06-15T18:20:35Z)
Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。このような問題は医学、物理学、機械学習で発生する。両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文参考訳（メタデータ） (2024-11-21T10:26:17Z)
Geometric Algebra Planes: Convex Implicit Neural Volumes [70.12234371845445]
GA-Planes はスパース低ランク係数と低分解能行列と等価であることを示す。また,GA-Planeは既存の表現にも適用可能であることを示す。
論文参考訳（メタデータ） (2024-11-20T18:21:58Z)
Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文参考訳（メタデータ） (2024-05-01T15:59:00Z)
A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。 i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文参考訳（メタデータ） (2024-04-18T16:46:08Z)
Stochastic Gradient Descent for Nonparametric Regression [11.24895028006405]
本稿では,非パラメトリック加法モデルをトレーニングするための反復アルゴリズムを提案する。結果の不等式は、モデルの誤特定を可能にする託宣を満足していることが示される。
論文参考訳（メタデータ） (2024-01-01T08:03:52Z)
Stochastic Marginal Likelihood Gradients using Neural Tangent Kernels [78.6096486885658]
線形化されたラプラス近似に下界を導入する。これらの境界は漸進的な最適化が可能であり、推定精度と計算複雑性とのトレードオフを可能にする。
論文参考訳（メタデータ） (2023-06-06T19:02:57Z)
An Information-Theoretic Analysis of Compute-Optimal Neural Scaling Laws [24.356906682593532]
大規模ニューラルネットワークにおけるモデルとトレーニングデータセットサイズ間の計算-最適トレードオフについて検討する。以上の結果から, チンチラの実証分析で裏付けられる線形関係が示唆された。
論文参考訳（メタデータ） (2022-12-02T18:46:41Z)
A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文参考訳（メタデータ） (2022-10-30T15:13:18Z)
An Exponentially Increasing Step-size for Parameter Estimation in Statistical Models [37.63410634069547]
本稿では,ガウス降下(GD)アルゴリズムのステップサイズを指数関数的に増加させることを提案する。次に、非正規統計モデルの下でパラメータ推定を解くためのEGDアルゴリズムについて検討する。 EGDアルゴリズムの総計算複雑性は、非正則統計モデルにおけるパラメータ推定の解法として、GDよりも最適で指数関数的に安価である。
論文参考訳（メタデータ） (2022-05-16T21:36:22Z)
Investigating the Relationship Between Dropout Regularization and Model Complexity in Neural Networks [0.0]
ドロップアウト規則化は、ディープラーニングモデルのばらつきを低減するのに役立つ。 2,000のニューラルネットワークをトレーニングすることにより,ドロップアウト率とモデル複雑性の関係について検討する。各密層に隠されたユニットの数から、最適なドロップアウト率を予測するニューラルネットワークを構築します。
論文参考訳（メタデータ） (2021-08-14T23:49:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。