論文の概要: Dimension-adapted Momentum Outscales SGD
- arxiv url: http://arxiv.org/abs/2505.16098v1
- Date: Thu, 22 May 2025 00:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.955157
- Title: Dimension-adapted Momentum Outscales SGD
- Title(参考訳): 次元適応型モーメント・アウトスケールSGD
- Authors: Damien Ferbach, Katie Everett, Gauthier Gidel, Elliot Paquette, Courtney Paquette,
- Abstract要約: 本稿では,パワーローランダムモデルに基づく運動量アルゴリズムのスケーリング法則について検討する。
モーメントアルゴリズムを用いて学習すると,データ・ターゲットの複雑さによって決定される4つの異なる損失曲線が明らかになる。
運動量による従来の勾配降下(SGDM)はSGDと同一のスケーリング法則指数をもたらすが、次元適応ネステロフ加速度(DANA)はこれらの指数を改善させる。
- 参考スコア(独自算出の注目度): 22.487084876365213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate scaling laws for stochastic momentum algorithms with small batch on the power law random features model, parameterized by data complexity, target complexity, and model size. When trained with a stochastic momentum algorithm, our analysis reveals four distinct loss curve shapes determined by varying data-target complexities. While traditional stochastic gradient descent with momentum (SGD-M) yields identical scaling law exponents to SGD, dimension-adapted Nesterov acceleration (DANA) improves these exponents by scaling momentum hyperparameters based on model size and data complexity. This outscaling phenomenon, which also improves compute-optimal scaling behavior, is achieved by DANA across a broad range of data and target complexities, while traditional methods fall short. Extensive experiments on high-dimensional synthetic quadratics validate our theoretical predictions and large-scale text experiments with LSTMs show DANA's improved loss exponents over SGD hold in a practical setting.
- Abstract(参考訳): 確率運動量アルゴリズムのスケーリング法則を,データ複雑性,ターゲット複雑性,モデルサイズによってパラメータ化したパワー法則ランダム特徴量モデル上で小さなバッチで検討する。
確率運動量アルゴリズムを用いて学習すると,データ・ターゲットの複雑さによって決定される4つの異なる損失曲線形状が明らかになる。
従来の確率勾配勾配(SGD-M)はSGDと同一のスケーリング法則指数をもたらすが、次元適応ネステロフ加速度(DANA)はモデルサイズとデータ複雑さに基づいて運動量ハイパーパラメータをスケーリングすることでこれらの指数を改善できる。
このアウトスケーリング現象は、計算-最適スケーリングの挙動も改善し、DANAが幅広いデータとターゲットの複雑さにまたがって達成し、従来の手法は不足している。
LSTMを用いた大規模テキスト実験により,SGDホールドに対するDANAの損失指数の改善が実証された。
関連論文リスト
- Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Hitting the High-Dimensional Notes: An ODE for SGD learning dynamics on
GLMs and multi-index models [10.781866671930857]
高次元限界におけるストリーミング勾配降下(SGD)のダイナミクスを解析する。
我々は、通常の微分方程式の体系の形で、SGDの決定論的等価性を実証する。
決定論的等価性に加えて、単純化された拡散係数を持つSDEを導入する。
論文 参考訳(メタデータ) (2023-08-17T13:33:02Z) - A Momentum-Incorporated Non-Negative Latent Factorization of Tensors
Model for Dynamic Network Representation [0.0]
大規模動的ネットワーク (LDN) は、多くのビッグデータ関連アプリケーションにおけるデータソースである。
テンソル(LFT)モデルの潜在因子化は、この時間パターンを効率的に抽出する。
勾配降下(SGD)解法に基づくLFTモデルは、トレーニングスキームによって制限されることが多く、尾収束が弱い。
本稿では,運動量付きSGDに基づく非線形LFTモデル(MNNL)を提案する。
論文 参考訳(メタデータ) (2023-05-04T12:30:53Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Dynamics of Stochastic Momentum Methods on Large-scale, Quadratic Models [0.2741266294612776]
我々は高次元ランダム最小二乗問題に対して運動量を持つ勾配アルゴリズムのクラスを解析する。
固定運動量パラメータを持つ(小バッチ)運動量では,ステップサイズを正確に調整した場合,SGDよりも実際の性能向上は得られないことを示す。
非強凸条件では、運動量を用いてSGDよりも大きな改善が得られる。
論文 参考訳(メタデータ) (2021-06-07T15:08:24Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - SGD in the Large: Average-case Analysis, Asymptotics, and Stepsize
Criticality [15.640534097470923]
本稿では,サンプル数と寸法がともに大きい場合の勾配降下(SGD)のダイナミクスを解析するための新しい枠組みを提案する。
この新たな枠組みを用いて, ランダムデータを用いた最小二乗問題におけるSGDの力学が, 標本および次元限界において決定論的になることを示す。
論文 参考訳(メタデータ) (2021-02-08T18:00:13Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。