Fugu-MT 論文翻訳(概要): When Can You Get Away with Low Memory Adam?

論文の概要: When Can You Get Away with Low Memory Adam?

arxiv url: http://arxiv.org/abs/2503.01843v2
Date: Thu, 06 Mar 2025 18:38:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-07 15:06:36.336474
Title: When Can You Get Away with Low Memory Adam?
Title（参考訳）: 低メモリのAdamはいつ使えるのか?
Authors: Dayal Singh Kalra, John Kirchenbauer, Maissam Barkeshli, Tom Goldstein,
Abstract要約: 我々は、$textitSlimAdam$がAdamのパフォーマンスと安定性にマッチし、合計2回目で98%のコストを節約できることを示します。 code for $textitSlimAdam$はhttps://github.com/dayal-kalra/low-Memory-adamで入手できる。
参考スコア（独自算出の注目度）: 48.30892531847662
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Adam is the go-to optimizer for training modern machine learning models, but it requires additional memory to maintain the moving averages of the gradients and their squares. While various low-memory optimizers have been proposed that sometimes match the performance of Adam, their lack of reliability has left Adam as the default choice. In this work, we apply a simple layer-wise Signal-to-Noise Ratio (SNR) analysis to quantify when second-moment tensors can be effectively replaced by their means across different dimensions. Our SNR analysis reveals how architecture, training hyperparameters, and dataset properties impact compressibility along Adam's trajectory, naturally leading to $\textit{SlimAdam}$, a memory-efficient Adam variant. $\textit{SlimAdam}$ compresses the second moments along dimensions with high SNR when feasible, and leaves when compression would be detrimental. Through experiments across a diverse set of architectures and training scenarios, we show that $\textit{SlimAdam}$ matches Adam's performance and stability while saving up to $98\%$ of total second moments. Code for $\textit{SlimAdam}$ is available at https://github.com/dayal-kalra/low-memory-adam.
Abstract（参考訳）: Adam氏は、モダンな機械学習モデルをトレーニングするためのゴーツーオプティマイザだが、勾配と正方形の移動平均を維持するには、追加のメモリが必要である。 Adamのパフォーマンスにマッチする様々な低メモリオプティマイザが提案されているが、信頼性の欠如により、Adamがデフォルトの選択肢となった。本研究では、第2モーメントテンソルを異なる次元の手段で効果的に置き換えることができるかどうかを定量化するために、SNR(Shite-wise Signal-to-Noise Ratio)分析を適用する。我々のSNR分析は、アーキテクチャ、トレーニングハイパーパラメータ、データセットプロパティがAdamの軌道に沿って圧縮性にどのように影響するかを明らかにし、自然に$\textit{SlimAdam}$、メモリ効率のよいAdam変種につながる。 $\textit{SlimAdam}$は、2番目のモーメントを高SNRの次元に沿って圧縮する。さまざまなアーキテクチャとトレーニングシナリオの実験を通じて、$\textit{SlimAdam}$がAdamのパフォーマンスと安定性にマッチし、合計2秒間の9,8\%のコストを節約できることを示した。 Code for $\textit{SlimAdam}$はhttps://github.com/dayal-kalra/low-Memory-adamで入手できる。

関連論文リスト

AdamS: Momentum Itself Can Be A Normalizer for LLM Pretraining and Post-training [22.58304858379219]
我々は,大規模言語モデル(LLM)の事前学習とポストトレーニングのための,Adamの簡易かつ効果的な代替手段であるAdamSを紹介した。新たな分母、すなわち運動量と現在の勾配の重み付き和の根を利用することにより、AdamSは第二モーメント推定の必要性を排除している。 AdamSは効率が良く、SGDのメモリと計算フットプリントと運動量とを一致させ、優れた最適化性能を提供する。
論文参考訳（メタデータ） (2025-05-22T08:16:48Z)
Adam Exploits $\ell_\infty$-geometry of Loss Landscape via Coordinate-wise Adaptivity [6.270305440413688]
好ましくは $ell_infty$-geometry が SGD であるのに対して、Adam は影響を受けていない。我々の実験は、好ましくは $ell_infty$-geometry が SGD であるのに対して、Adam が影響を受けていない場合、さらに悪化することを確認した。
論文参考訳（メタデータ） (2024-10-10T17:58:53Z)
Adam-mini: Use Fewer Learning Rates To Gain More [29.170425801678952]
Adam-miniはAdamの学習率リソースを削減します。 Adam-miniは、メモリフットプリントが50%少ないAdamWよりも同等かそれ以上のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-06-24T16:56:41Z)
Adam Accumulation to Reduce Memory Footprints of both Activations and Gradients for Large-scale DNN Training [6.0904817096340125]
本稿では,Adam Accumulation (AdamA) という,アクティベーションとグラデーションメモリの両方を削減可能な新しいAdamの蓄積手法を提案する。具体的には、AdamAは状態への勾配を直接統合し、マイクロバッチ上で状態を蓄積することで、使用直後に勾配を解放することができる。 AdamAは、トレーニングスループットが2%未満のグラデーション累積に比べて最大23%のメモリ削減を実現している。
論文参考訳（メタデータ） (2023-05-31T16:06:50Z)
Symbolic Discovery of Optimization Algorithms [132.62397077095787]
我々は,効率的な探索手法を用いて,無限小のプログラム空間を探索する。提案手法は, 単純かつ効率的な最適化アルゴリズムである $textbfLion$ を探索する。 LionはGoogle検索広告CTRモデルのようなプロダクションシステムにうまくデプロイされている。
論文参考訳（メタデータ） (2023-02-13T20:27:30Z)
Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文参考訳（メタデータ） (2022-08-21T14:57:47Z)
Maximizing Communication Efficiency for Large-scale Training via 0/1 Adam [49.426602335460295]
1ビット通信はモデルトレーニングのスケールアップに有効な手法であり、SGDで広く研究されている。我々は2つの新しい手法により最先端の1ビットAdamを改善する0/1Adamを提案する。
論文参考訳（メタデータ） (2022-02-12T08:02:23Z)
Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文参考訳（メタデータ） (2022-02-02T11:58:56Z)
Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。 AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文参考訳（メタデータ） (2022-01-31T21:00:55Z)
Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文参考訳（メタデータ） (2020-11-24T09:28:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。