論文の概要: SOAP: Improving and Stabilizing Shampoo using Adam
- arxiv url: http://arxiv.org/abs/2409.11321v1
- Date: Tue, 17 Sep 2024 16:18:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 15:47:40.981006
- Title: SOAP: Improving and Stabilizing Shampoo using Adam
- Title(参考訳): SOAP:Adamを使ったシャンプーの改善と安定化
- Authors: Nikhil Vyas, Depen Morwani, Rosie Zhao, Itai Shapira, David Brandfonbrener, Lucas Janson, Sham Kakade,
- Abstract要約: この研究はシャンプーとアダファクトの間の公式な関係を確立している。
AdafactorはAdamのメモリ効率の近似である。
シャンプーのプレコンディショナーの固有ベイズにおいて,シャンプーがAdafactorを実行することと等価であることを示す。
- 参考スコア(独自算出の注目度): 10.574263158991304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is growing evidence of the effectiveness of Shampoo, a higher-order preconditioning method, over Adam in deep learning optimization tasks. However, Shampoo's drawbacks include additional hyperparameters and computational overhead when compared to Adam, which only updates running averages of first- and second-moment quantities. This work establishes a formal connection between Shampoo (implemented with the 1/2 power) and Adafactor -- a memory-efficient approximation of Adam -- showing that Shampoo is equivalent to running Adafactor in the eigenbasis of Shampoo's preconditioner. This insight leads to the design of a simpler and computationally efficient algorithm: $\textbf{S}$hampo$\textbf{O}$ with $\textbf{A}$dam in the $\textbf{P}$reconditioner's eigenbasis (SOAP). With regards to improving Shampoo's computational efficiency, the most straightforward approach would be to simply compute Shampoo's eigendecomposition less frequently. Unfortunately, as our empirical results show, this leads to performance degradation that worsens with this frequency. SOAP mitigates this degradation by continually updating the running average of the second moment, just as Adam does, but in the current (slowly changing) coordinate basis. Furthermore, since SOAP is equivalent to running Adam in a rotated space, it introduces only one additional hyperparameter (the preconditioning frequency) compared to Adam. We empirically evaluate SOAP on language model pre-training with 360m and 660m sized models. In the large batch regime, SOAP reduces the number of iterations by over 40% and wall clock time by over 35% compared to AdamW, with approximately 20% improvements in both metrics compared to Shampoo. An implementation of SOAP is available at https://github.com/nikhilvyas/SOAP.
- Abstract(参考訳): ディープラーニング最適化タスクにおいて,Adamよりも高次プレコンディショニング手法であるSampooの有効性を示す証拠が増えている。
しかしながら、シャンプーの欠点は、第1および第2モーメント量の平均を更新するだけであるAdamと比較して、追加のハイパーパラメータと計算オーバーヘッドを含んでいる。
この研究は、シャンプー(1/2のパワーで実装)とアダムのメモリ効率の近似であるアダファクターの間の公式な接続を確立し、シャンプーのプレコンディショナーの固有基底において、シャンプーがアダファクタを実行することと等価であることを示す。
$\textbf{S}$hampo$\textbf{O}$ with $\textbf{A}$dam in the $\textbf{P}$reconditioner's eigenbasis (SOAP)。
シャンプーの計算効率の改善に関して、最も単純なアプローチはシャンプーの固有分解をあまり頻繁に計算することである。
残念ながら、我々の経験的な結果が示すように、この周波数でパフォーマンスが悪化する。
SOAPは、Adamのように第2モーメントの実行平均を継続的に更新し、現在の(ゆっくりと変化する)座標ベースでこの劣化を緩和します。
さらに、SOAPは、回転した空間でAdamを実行することと等価であるため、Adamと比較して1つの追加のハイパーパラメータ(プレコンディショニング周波数)しか導入しない。
私たちは、360mと660mサイズのモデルで事前トレーニングを行う言語モデル上で、SOAPを実証的に評価します。
大規模なバッチシステムでは、SOAPはAdamWと比較してイテレーションの回数を40%以上削減し、ウォールクロック時間を35%以上削減します。
SOAPの実装はhttps://github.com/nikhilvyas/SOAPで公開されている。
関連論文リスト
- ADOPT: Modified Adam Can Converge with Any $β_2$ with the Optimal Rate [21.378608502899077]
本稿では,ADOPTという新しい適応勾配法を提案する。これは,有界雑音の仮定に依存することなく,$mathcalOの最適収束率を実現する。
ADOPTは、画像分類、生成モデル、自然言語処理、深層強化学習など、幅広いタスクにおいて、Adamとその変種と比較して優れた結果が得られる。
論文 参考訳(メタデータ) (2024-11-05T06:57:47Z) - Towards Communication-efficient Federated Learning via Sparse and Aligned Adaptive Optimization [65.85963235502322]
Federated Adam (FedAdam) アルゴリズムはアップリンク通信オーバーヘッドの3倍の増大に悩まされている。
我々はFedAdam-SSMと呼ばれる新しいスパースなFedAdamアルゴリズムを提案する。
我々は,FedAdam-SSMが訓練したモデルと集中型Adamの差異を最小化することにより,スペーシフィケーションエラーによる学習性能劣化を軽減するためにSSMを最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:56:49Z) - A Computationally Efficient Sparsified Online Newton Method [48.78646010774149]
Sparsified Online Newton (SONew) はメモリ効率の良い2次アルゴリズムである。
最大で30%の高速化,3.4%の妥当性向上,80%のトレーニング損失の相対的改善を実現しています。
論文 参考訳(メタデータ) (2023-11-16T18:44:22Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。
AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。
我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文 参考訳(メタデータ) (2022-01-31T21:00:55Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - Adam with Bandit Sampling for Deep Learning [18.033149110113378]
我々は、異なるトレーニング例に適応できるAdambsと呼ばれるAdamの一般化を提案する。
様々なモデルとデータセットの実験は、実際にアダムスの高速収束を実証している。
論文 参考訳(メタデータ) (2020-10-24T21:01:26Z) - APMSqueeze: A Communication Efficient Adam-Preconditioned Momentum SGD
Algorithm [39.110478306078974]
AdamはBERTやImageNetといった多くの重要なタスクをトレーニングするための効率性と正確性を保証する重要な最適化アルゴリズムである。
本稿では,bf ADAM bfプレコンディション付きbf Momentum SGDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-26T02:20:23Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。