Fugu-MT 論文翻訳(概要): Adam-mini: Use Fewer Learning Rates To Gain More

論文の概要: Adam-mini: Use Fewer Learning Rates To Gain More

arxiv url: http://arxiv.org/abs/2406.16793v5
Date: Wed, 3 Jul 2024 16:38:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 19:03:22.821267
Title: Adam-mini: Use Fewer Learning Rates To Gain More
Title（参考訳）: Adam-mini: より少ない学習率でより多くのものを得る
Authors: Yushun Zhang, Congliang Chen, Ziniu Li, Tian Ding, Chenwei Wu, Yinyu Ye, Zhi-Quan Luo, Ruoyu Sun,
Abstract要約: Adam-miniはAdamの学習率リソースを削減してメモリを削減します。 Adam-miniは、メモリフットプリントを45%から50%削減したAdamWよりも、オンパーまたは優れたパフォーマンスを実現している。
参考スコア（独自算出の注目度）: 26.03316652696334
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose Adam-mini, an optimizer that achieves on-par or better performance than AdamW with 45% to 50% less memory footprint. Adam-mini reduces memory by cutting down the learning rate resources in Adam (i.e., $1/\sqrt{v}$). We find that $\geq$ 90% of these learning rates in $v$ could be harmlessly removed if we (1) carefully partition the parameters into blocks following our proposed principle on Hessian structure; (2) assign a single but good learning rate to each parameter block. We further find that, for each of these parameter blocks, there exists a single high-quality learning rate that can outperform Adam, provided that sufficient resources are available to search it out. We then provide one cost-effective way to find good learning rates and propose Adam-mini. Empirically, we verify that Adam-mini performs on par or better than AdamW on various language models sized from 125M to 7B for pre-training, supervised fine-tuning, and RLHF. The reduced memory footprint of Adam-mini also alleviates communication overheads among GPUs and CPUs, thereby increasing throughput. For instance, Adam-mini achieves 49.6% higher throughput than AdamW when pre-training Llama2-7B on $2\times$ A800-80GB GPUs, which saves 33% wall-clock time for pre-training.
Abstract（参考訳）: 我々は、メモリフットプリントを45%から50%削減したAdamWよりも、オンパーまたは優れたパフォーマンスを実現する最適化器Adam-miniを提案する。 Adam-miniは、Adamの学習率リソースを削減してメモリを削減する(つまり、1/\sqrt{v}$)。これらの学習率の90%を$v$で$\geq$とすると、(1)ヘッセン構造に関する提案した原理に従って、パラメータをブロックに慎重に分割し、(2)各パラメータブロックに1つのよい学習率を割り当てれば、無害に除去できることがわかった。さらに、これらのパラメータブロックのそれぞれに対して、Adamより優れた1つの高品質の学習率が存在し、検索に十分なリソースが確保できることが分かりました。次に、優れた学習率を見つけるためのコスト効率のよい方法を提供し、Adam-miniを提案する。実験により,Adam-mini が 125M から 7B までの大きさの様々な言語モデルにおいて,事前学習,教師付き微調整,RLHF に対して,Adam-mini がAdamW よりも同等以上の性能を示すことを確認した。 Adam-miniのメモリフットプリントの削減により、GPUとCPU間の通信オーバーヘッドが軽減され、スループットが向上する。例えば、Adam-miniは、Llama2-7Bを2\times$ A800-80GBで事前トレーニングする際にAdamWよりも49.6%高いスループットを達成した。

関連論文リスト

AdamS: Momentum Itself Can Be A Normalizer for LLM Pretraining and Post-training [22.58304858379219]
我々は,大規模言語モデル(LLM)の事前学習とポストトレーニングのための,Adamの簡易かつ効果的な代替手段であるAdamSを紹介した。新たな分母、すなわち運動量と現在の勾配の重み付き和の根を利用することにより、AdamSは第二モーメント推定の必要性を排除している。 AdamSは効率が良く、SGDのメモリと計算フットプリントと運動量とを一致させ、優れた最適化性能を提供する。
論文参考訳（メタデータ） (2025-05-22T08:16:48Z)
When Can You Get Away with Low Memory Adam? [48.30892531847662]
我々は、$textitSlimAdam$がAdamのパフォーマンスと安定性にマッチし、合計2回目で98%のコストを節約できることを示します。 code for $textitSlimAdam$はhttps://github.com/dayal-kalra/low-Memory-adamで入手できる。
論文参考訳（メタデータ） (2025-03-03T18:59:40Z)
Adam Exploits $\ell_\infty$-geometry of Loss Landscape via Coordinate-wise Adaptivity [6.270305440413688]
好ましくは $ell_infty$-geometry が SGD であるのに対して、Adam は影響を受けていない。我々の実験は、好ましくは $ell_infty$-geometry が SGD であるのに対して、Adam が影響を受けていない場合、さらに悪化することを確認した。
論文参考訳（メタデータ） (2024-10-10T17:58:53Z)
Symbolic Discovery of Optimization Algorithms [132.62397077095787]
我々は,効率的な探索手法を用いて,無限小のプログラム空間を探索する。提案手法は, 単純かつ効率的な最適化アルゴリズムである $textbfLion$ を探索する。 LionはGoogle検索広告CTRモデルのようなプロダクションシステムにうまくデプロイされている。
論文参考訳（メタデータ） (2023-02-13T20:27:30Z)
Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文参考訳（メタデータ） (2022-08-21T14:57:47Z)
Maximizing Communication Efficiency for Large-scale Training via 0/1 Adam [49.426602335460295]
1ビット通信はモデルトレーニングのスケールアップに有効な手法であり、SGDで広く研究されている。我々は2つの新しい手法により最先端の1ビットAdamを改善する0/1Adamを提案する。
論文参考訳（メタデータ） (2022-02-12T08:02:23Z)
Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。 AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文参考訳（メタデータ） (2022-01-31T21:00:55Z)
Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文参考訳（メタデータ） (2020-11-24T09:28:53Z)
EAdam Optimizer: How $\epsilon$ Impact Adam [7.0552555621312605]
本稿では,Adamに対する定数$epsilon$の影響について論じる。この発見に基づいて,Adam の新たな変種 EAdam を提案する。当社の手法はAdamと比較して大幅に改善できる。
論文参考訳（メタデータ） (2020-11-04T06:39:44Z)
Adam with Bandit Sampling for Deep Learning [18.033149110113378]
我々は、異なるトレーニング例に適応できるAdambsと呼ばれるAdamの一般化を提案する。様々なモデルとデータセットの実験は、実際にアダムスの高速収束を実証している。
論文参考訳（メタデータ） (2020-10-24T21:01:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。