論文の概要: Grams: Gradient Descent with Adaptive Momentum Scaling
- arxiv url: http://arxiv.org/abs/2412.17107v1
- Date: Sun, 22 Dec 2024 17:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:52:35.820694
- Title: Grams: Gradient Descent with Adaptive Momentum Scaling
- Title(参考訳): Grams: 適応的なモーメントスケーリングを備えたグラディエントDescent
- Authors: Yang Cao, Xiaoyu Li, Zhao Song,
- Abstract要約: textbfGradient Descent with textbfAdaptive textbfMomentum textbfScaling (textbfGrams)
Gramsは、ディープラーニングにおけるパラメータ更新の方向と大きさを分離する最適化アルゴリズムである。
本結果は,大規模機械学習における効率的な最適化のための変換的アプローチとしてのGramsの可能性を強調した。
- 参考スコア(独自算出の注目度): 19.966519464887575
- License:
- Abstract: We introduce \textbf{Gr}adient Descent with \textbf{A}daptive \textbf{M}omentum \textbf{S}caling (\textbf{Grams}), a novel optimization algorithm that decouples the direction and magnitude of parameter updates in deep learning. Unlike traditional optimizers that directly integrate momentum into updates, Grams separates the update direction, derived from current gradients, from momentum, which is used solely for adaptive magnitude scaling. This approach enables Grams to achieve improved loss descent compared to state-of-the-art cautious and momentum-based optimizers. We establish a global convergence guarantee for Grams and validate its effectiveness through extensive empirical evaluations. The results demonstrate Grams' superior performance, including faster convergence and better generalization, compared to widely-used optimizers such as Adam, Lion, and their cautious variants. Our results highlight Grams' potential as a transformative approach for efficient optimization in large-scale machine learning.
- Abstract(参考訳): 本稿では,深層学習におけるパラメータ更新の方向と大きさを分離する新しい最適化アルゴリズムである \textbf{Gr}adient Descent with \textbf{A}daptive \textbf{M}omentum \textbf{S}caling (\textbf{Grams})を紹介する。
更新にモーメントを直接統合する従来のオプティマイザとは異なり、Gramsは、現在の勾配から派生した更新方向を、適応的なスケールスケーリングにのみ使用されるモーメントから分離する。
このアプローチにより、Gramsは最先端の慎重かつ運動量に基づく最適化よりも損失降下を改善することができる。
我々は,グラムのグローバル収束保証を確立し,その有効性を広範な経験的評価を通じて検証する。
結果は、Adam、Lion、およびそれらの慎重な変種のような広く使われているオプティマイザと比較して、Gramsのより高速な収束とより優れた一般化を含む優れた性能を示している。
本結果は,大規模機械学習における効率的な最適化のための変換的アプローチとしてのGramsの可能性を強調した。
関連論文リスト
- Adaptive Friction in Deep Learning: Enhancing Optimizers with Sigmoid and Tanh Function [0.0]
我々は適応摩擦係数を統合する2つの新しい勾配であるsigSignGradとtanhSignGradを紹介する。
我々の理論解析は,摩擦係数Sの広帯域調整能力を示す。
ResNet50 と ViT アーキテクチャを用いた CIFAR-10, Mini-Image-Net 実験により,提案手法の優れた性能が確認された。
論文 参考訳(メタデータ) (2024-08-07T03:20:46Z) - Adaptive Gradient Regularization: A Faster and Generalizable Optimization Technique for Deep Neural Networks [5.507301894089302]
本稿では、勾配ベクトルの和正規化を係数として、ディープニューラルネットワークの新しい最適化手法を研究するための最初の試みである。
提案手法は適応勾配正規化 (Adaptive gradient regularization, AGR) と呼ばれる。
論文 参考訳(メタデータ) (2024-07-24T02:23:18Z) - Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling [27.058009599819012]
本稿では,Adamスタイルにおける最適学習率とバッチサイズとの関係について検討する。
最適学習率が最初に上昇し、バッチサイズが大きくなるにつれて低下することを示す。
論文 参考訳(メタデータ) (2024-05-23T13:52:36Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - Global Matching with Overlapping Attention for Optical Flow Estimation [10.320192824517358]
GMFlowNetは光学フロー推定のための学習ベースのマッチング最適化フレームワークである。
標準ベンチマークで最先端のパフォーマンスを達成する。
GMFlowNetは、マッチングと重なり合う注意により、テクスチャレス領域と大きな動きの予測に大きな改善をもたらす。
論文 参考訳(メタデータ) (2022-03-21T20:52:19Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。