論文の概要: Grams: Gradient Descent with Adaptive Momentum Scaling
- arxiv url: http://arxiv.org/abs/2412.17107v3
- Date: Wed, 05 Mar 2025 07:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:00:13.394686
- Title: Grams: Gradient Descent with Adaptive Momentum Scaling
- Title(参考訳): Grams: 適応的なモーメントスケーリングを備えたグラディエントDescent
- Authors: Yang Cao, Xiaoyu Li, Zhao Song,
- Abstract要約: $mathbfG$radient Descent with $mathbfA$daptive $mathbfM$omentum $mathbfS$caling ($mathbfGrams)
Gramsは、ディープラーニングにおける更新の方向と大きさを分離する最適化アルゴリズムである。
- 参考スコア(独自算出の注目度): 19.966519464887575
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce $\mathbf{G}$radient Descent with $\mathbf{A}$daptive $\mathbf{M}$omentum $\mathbf{S}$caling ($\mathbf{Grams}$), a novel optimization algorithm that decouples the direction and magnitude of parameter updates in deep learning. Unlike traditional optimizers that directly integrate momentum into updates, Grams separates the update direction, derived from current gradients, from momentum, which is used solely for adaptive magnitude scaling. This approach enables Grams to achieve improved loss descent compared to state-of-the-art cautious and momentum-based optimizers. We theoretically demonstrate that Grams descents faster than other state-of-the-art optimizers and establish a global convergence guarantee for Grams. We also validate its effectiveness through extensive empirical evaluations. The results demonstrate Grams' superior performance, including faster convergence and better generalization, compared to widely-used optimizers such as Adam, Lion, and their cautious variants. Our results highlight Grams' potential as a transformative approach for efficiently training and fine-tuning large language models. Code is available at https://github.com/Gunale0926/Grams.
- Abstract(参考訳): ディープラーニングにおけるパラメータ更新の方向と大きさを分離する新しい最適化アルゴリズムである$\mathbf{G}$radient Descent with $\mathbf{A}$daptive $\mathbf{M}$omentum $\mathbf{S}$caling ($\mathbf{Grams}$。
更新にモーメントを直接統合する従来のオプティマイザとは異なり、Gramsは、現在の勾配から派生した更新方向を、適応的なスケールスケーリングにのみ使用されるモーメントから分離する。
このアプローチにより、Gramsは最先端の慎重かつ運動量に基づく最適化よりも損失降下を改善することができる。
理論的には、Gramsの降下は他の最先端のオプティマイザよりも速く、Gramsのグローバルコンバージェンス保証を確立することを実証する。
また、広範囲な経験的評価により、その効果を検証した。
結果は、Adam、Lion、およびそれらの慎重な変種のような広く使われているオプティマイザと比較して、Gramsのより高速な収束とより優れた一般化を含む優れた性能を示している。
この結果から,Gramsは大規模言語モデルの学習と微調整を効率的に行うための変革的アプローチとしての可能性を強調した。
コードはhttps://github.com/Gunale0926/Gramsで入手できる。
関連論文リスト
- Adaptive Friction in Deep Learning: Enhancing Optimizers with Sigmoid and Tanh Function [0.0]
我々は適応摩擦係数を統合する2つの新しい勾配であるsigSignGradとtanhSignGradを紹介する。
我々の理論解析は,摩擦係数Sの広帯域調整能力を示す。
ResNet50 と ViT アーキテクチャを用いた CIFAR-10, Mini-Image-Net 実験により,提案手法の優れた性能が確認された。
論文 参考訳(メタデータ) (2024-08-07T03:20:46Z) - Convergence Analysis of Natural Gradient Descent for Over-parameterized Physics-Informed Neural Networks [3.680127959836384]
勾配勾配勾配(GD)や二次勾配勾配(SGD)のような一階法はニューラルネットワークのトレーニングに有効であることが証明されている。
しかし, 2層ニューラルネットワークの学習におけるGDの学習速度は, サンプルサイズとグラム行列に依存しない。
本稿では, 回帰問題である$L2$に対して, 学習率を$mathcalO(1)$から$mathcalO(1)$に改善できることを示す。
論文 参考訳(メタデータ) (2024-08-01T14:06:34Z) - Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling [27.058009599819012]
本稿では,Adamスタイルにおける最適学習率とバッチサイズとの関係について検討する。
最適学習率が最初に上昇し、バッチサイズが大きくなるにつれて低下することを示す。
論文 参考訳(メタデータ) (2024-05-23T13:52:36Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - XGrad: Boosting Gradient-Based Optimizers With Weight Prediction [20.068681423455057]
本稿では,総合的なディープラーニング学習フレームワークXGradを提案する。
XGradは、一般的な勾配に基づくDNNに重み予測を導入し、収束と一般化を促進する。
実験により,XGradはモデルトレーニング時のベースラインよりも高いモデル精度が得られることを確認した。
論文 参考訳(メタデータ) (2023-05-26T10:34:00Z) - Efficient Bound of Lipschitz Constant for Convolutional Layers by Gram
Iteration [122.51142131506639]
循環行列理論を用いて畳み込み層のスペクトルノルムに対して、精密で高速で微分可能な上界を導入する。
提案手法は, 精度, 計算コスト, スケーラビリティの観点から, 他の最先端手法よりも優れていることを示す。
これは畳み込みニューラルネットワークのリプシッツ正則化に非常に効果的であり、並行アプローチに対する競合的な結果である。
論文 参考訳(メタデータ) (2023-05-25T15:32:21Z) - Global Matching with Overlapping Attention for Optical Flow Estimation [10.320192824517358]
GMFlowNetは光学フロー推定のための学習ベースのマッチング最適化フレームワークである。
標準ベンチマークで最先端のパフォーマンスを達成する。
GMFlowNetは、マッチングと重なり合う注意により、テクスチャレス領域と大きな動きの予測に大きな改善をもたらす。
論文 参考訳(メタデータ) (2022-03-21T20:52:19Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。