Fugu-MT 論文翻訳(概要): Amos: An Adam-style Optimizer with Adaptive Weight Decay towards Model-Oriented Scale

論文の概要: Amos: An Adam-style Optimizer with Adaptive Weight Decay towards Model-Oriented Scale

arxiv url: http://arxiv.org/abs/2210.11693v1
Date: Fri, 21 Oct 2022 02:37:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-24 15:38:27.455951
Title: Amos: An Adam-style Optimizer with Adaptive Weight Decay towards Model-Oriented Scale
Title（参考訳）: Amos: モデル指向スケールへの適応的な重み付けによるアダムスタイルの最適化
Authors: Ran Tian, Ankur P. Parikh
Abstract要約: Amosは、ディープニューラルネットワークをトレーニングするための勾配ベースのシステムである。理論的に支持され、適応的な学習速度の減衰と重みの崩壊を持つアダムと見なすことができる。
参考スコア（独自算出の注目度）: 16.97880876259831
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Amos, a stochastic gradient-based optimizer designed for training deep neural networks. It can be viewed as an Adam optimizer with theoretically supported, adaptive learning-rate decay and weight decay. A key insight behind Amos is that it leverages model-specific information to determine the initial learning-rate and decaying schedules. When used for pre-training BERT variants and T5, Amos consistently converges faster than the state-of-the-art settings of AdamW, achieving better validation loss within <=70% training steps and time, while requiring <=51% memory for slot variables. Our code is open-sourced at: https://github.com/google-research/jestimator
Abstract（参考訳）: Amosは、ディープニューラルネットワークのトレーニング用に設計された確率的勾配に基づくオプティマイザである。理論的に支持され、適応的な学習速度減衰と重量減衰を持つadamオプティマイザと見なすことができる。 amosの背景にある重要な洞察は、モデル固有の情報を活用して初期学習率と崩壊スケジュールを決定することだ。 BERTとT5の事前トレーニングに使用する場合、AmosはAdamWの最先端設定よりも一貫して収束し、<=70%のトレーニングステップと時間内でのバリデーション損失を改善すると同時に、スロット変数に対して<=51%のメモリを必要とする。私たちのコードは、https://github.com/google-research/jestimatorでオープンソースです。

関連論文リスト

LoRA Unlearns More and Retains More (Student Abstract) [0.0]
PruneLoRAは、モデルに低ランクの更新を適用することで、大規模なパラメータ更新の必要性を減らす。そこで我々はLoRAを利用してプルーンドモデルのパラメータのサブセットを選択的に修正し、計算コスト、メモリ要件を低減し、残りのクラスの性能を維持するモデルの能力を向上させる。
論文参考訳（メタデータ） (2024-11-16T16:47:57Z)
MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。その結果,MARSの実装はAdamより一貫して優れていた。
論文参考訳（メタデータ） (2024-11-15T18:57:39Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
A second-order-like optimizer with adaptive gradient scaling for deep learning [13.174512123890016]
INNApropは、INNA法とRMSprop適応勾配スケーリングを組み合わせた最適化アルゴリズムである。画像分類 (CIFAR-10, ImageNet) と言語モデリング (GPT-2) について、INNAprop はAdamW のトレーニング速度と精度を一貫して比較または比較している。
論文参考訳（メタデータ） (2024-10-08T09:58:38Z)
Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文参考訳（メタデータ） (2024-06-17T12:24:45Z)
How to set AdamW's weight decay as you scale model and dataset size [29.980824873382833]
我々はAdamWが学んだ重みを最近の更新の指数移動平均(EMA)と解釈できることを示した。これは、AdamWにおける重量減衰の設定方法と、重量減衰をモデルとデータセットサイズでスケールする方法に関する重要な洞察を与える。
論文参考訳（メタデータ） (2024-05-22T14:43:02Z)
The Entropy Enigma: Success and Failure of Entropy Minimization [30.083332640328642]
エントロピー最小化(EM)は、テスト時に新しいデータに直面した場合に、分類モデルの精度を高めるために頻繁に使用される。 EMがいくつかのステップでモデルを適用するときに機能する理由と、多くのステップで適応した後に最終的に失敗する理由を分析します。本稿では,与えられた任意のデータセットに対して,ラベルにアクセスすることなくモデルの精度を推定する,実用的な問題を解決する方法を提案する。
論文参考訳（メタデータ） (2024-05-08T12:26:15Z)
A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文参考訳（メタデータ） (2024-02-02T01:41:38Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Weight Prediction Boosts the Convergence of AdamW [3.7485728774744556]
我々は、ディープニューラルネットワーク(DNN)モデルをトレーニングする際の収束を高めるために、AdamWに重み予測を導入する。特に、各ミニバッチトレーニングの前に、AdamWの更新ルールに従って将来の重量を予測し、予測された将来の重量を適用します。
論文参考訳（メタデータ） (2023-02-01T02:58:29Z)
Read the Signs: Towards Invariance to Gradient Descent's Hyperparameter Initialization [3.1153758106426603]
学習速度を$alpha$でローカライズする最適化メタアルゴリズムであるActiveLRを提案し,各エポックの勾配が符号を変更するか否かに応じて各エポックに適応する。我々は、広く使われ、最近公開された勾配勾配勾配、すなわち運動量を持つSGD、AdamW、RAdam、AdaBeliefのアクティブバージョン(我々のもの)を実装している。
論文参考訳（メタデータ） (2023-01-24T16:57:00Z)
MT3: Meta Test-Time Training for Self-Supervised Test-Time Adaption [69.76837484008033]
ディープラーニングの未解決の問題は、ニューラルネットワークがテスト時間中のドメインシフトに対処する能力である。メタラーニング、自己監督、テストタイムトレーニングを組み合わせて、目に見えないテスト分布に適応する方法を学びます。この手法はcifar-10による画像分類ベンチマークの最先端結果を大幅に改善する。
論文参考訳（メタデータ） (2021-03-30T09:33:38Z)
AdamP: Slowing Down the Slowdown for Momentum Optimizers on Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文参考訳（メタデータ） (2020-06-15T08:35:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。