論文の概要: When Can You Get Away with Low Memory Adam?
- arxiv url: http://arxiv.org/abs/2503.01843v2
- Date: Thu, 06 Mar 2025 18:38:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 12:14:37.171762
- Title: When Can You Get Away with Low Memory Adam?
- Title(参考訳): 低メモリのAdamはいつ使えるのか?
- Authors: Dayal Singh Kalra, John Kirchenbauer, Maissam Barkeshli, Tom Goldstein,
- Abstract要約: 我々は、$textitSlimAdam$がAdamのパフォーマンスと安定性にマッチし、合計2回目で98%のコストを節約できることを示します。
code for $textitSlimAdam$はhttps://github.com/dayal-kalra/low-Memory-adamで入手できる。
- 参考スコア(独自算出の注目度): 48.30892531847662
- License:
- Abstract: Adam is the go-to optimizer for training modern machine learning models, but it requires additional memory to maintain the moving averages of the gradients and their squares. While various low-memory optimizers have been proposed that sometimes match the performance of Adam, their lack of reliability has left Adam as the default choice. In this work, we apply a simple layer-wise Signal-to-Noise Ratio (SNR) analysis to quantify when second-moment tensors can be effectively replaced by their means across different dimensions. Our SNR analysis reveals how architecture, training hyperparameters, and dataset properties impact compressibility along Adam's trajectory, naturally leading to $\textit{SlimAdam}$, a memory-efficient Adam variant. $\textit{SlimAdam}$ compresses the second moments along dimensions with high SNR when feasible, and leaves when compression would be detrimental. Through experiments across a diverse set of architectures and training scenarios, we show that $\textit{SlimAdam}$ matches Adam's performance and stability while saving up to $98\%$ of total second moments. Code for $\textit{SlimAdam}$ is available at https://github.com/dayal-kalra/low-memory-adam.
- Abstract(参考訳): Adam氏は、モダンな機械学習モデルをトレーニングするためのゴーツーオプティマイザだが、勾配と正方形の移動平均を維持するには、追加のメモリが必要である。
Adamのパフォーマンスにマッチする様々な低メモリオプティマイザが提案されているが、信頼性の欠如により、Adamがデフォルトの選択肢となった。
本研究では、第2モーメントテンソルを異なる次元の手段で効果的に置き換えることができるかどうかを定量化するために、SNR(Shite-wise Signal-to-Noise Ratio)分析を適用する。
我々のSNR分析は、アーキテクチャ、トレーニングハイパーパラメータ、データセットプロパティがAdamの軌道に沿って圧縮性にどのように影響するかを明らかにし、自然に$\textit{SlimAdam}$、メモリ効率のよいAdam変種につながる。
$\textit{SlimAdam}$は、2番目のモーメントを高SNRの次元に沿って圧縮する。
さまざまなアーキテクチャとトレーニングシナリオの実験を通じて、$\textit{SlimAdam}$がAdamのパフォーマンスと安定性にマッチし、合計2秒間の9,8\%のコストを節約できることを示した。
Code for $\textit{SlimAdam}$はhttps://github.com/dayal-kalra/low-Memory-adamで入手できる。
関連論文リスト
- Adam Exploits $\ell_\infty$-geometry of Loss Landscape via Coordinate-wise Adaptivity [6.270305440413688]
好ましくは $ell_infty$-geometry が SGD であるのに対して、Adam は影響を受けていない。
我々の実験は、好ましくは $ell_infty$-geometry が SGD であるのに対して、Adam が影響を受けていない場合、さらに悪化することを確認した。
論文 参考訳(メタデータ) (2024-10-10T17:58:53Z) - Adam-mini: Use Fewer Learning Rates To Gain More [29.170425801678952]
Adam-miniはAdamの学習率リソースを削減します。
Adam-miniは、メモリフットプリントが50%少ないAdamWよりも同等かそれ以上のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-24T16:56:41Z) - Adam Accumulation to Reduce Memory Footprints of both Activations and
Gradients for Large-scale DNN Training [6.0904817096340125]
本稿では,Adam Accumulation (AdamA) という,アクティベーションとグラデーションメモリの両方を削減可能な新しいAdamの蓄積手法を提案する。
具体的には、AdamAは状態への勾配を直接統合し、マイクロバッチ上で状態を蓄積することで、使用直後に勾配を解放することができる。
AdamAは、トレーニングスループットが2%未満のグラデーション累積に比べて最大23%のメモリ削減を実現している。
論文 参考訳(メタデータ) (2023-05-31T16:06:50Z) - Symbolic Discovery of Optimization Algorithms [132.62397077095787]
我々は,効率的な探索手法を用いて,無限小のプログラム空間を探索する。
提案手法は, 単純かつ効率的な最適化アルゴリズムである $textbfLion$ を探索する。
LionはGoogle検索広告CTRモデルのようなプロダクションシステムにうまくデプロイされている。
論文 参考訳(メタデータ) (2023-02-13T20:27:30Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Maximizing Communication Efficiency for Large-scale Training via 0/1
Adam [49.426602335460295]
1ビット通信はモデルトレーニングのスケールアップに有効な手法であり、SGDで広く研究されている。
我々は2つの新しい手法により最先端の1ビットAdamを改善する0/1Adamを提案する。
論文 参考訳(メタデータ) (2022-02-12T08:02:23Z) - Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。
AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。
我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文 参考訳(メタデータ) (2022-01-31T21:00:55Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。