論文の概要: Adam-mini: Use Fewer Learning Rates To Gain More
- arxiv url: http://arxiv.org/abs/2406.16793v6
- Date: Mon, 11 Nov 2024 16:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:05:14.930468
- Title: Adam-mini: Use Fewer Learning Rates To Gain More
- Title(参考訳): Adam-mini: より少ない学習率でより多くのものを得る
- Authors: Yushun Zhang, Congliang Chen, Ziniu Li, Tian Ding, Chenwei Wu, Diederik P. Kingma, Yinyu Ye, Zhi-Quan Luo, Ruoyu Sun,
- Abstract要約: Adam-miniはAdamの学習率リソースを削減します。
Adam-miniは、メモリフットプリントが50%少ないAdamWよりも同等かそれ以上のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 29.170425801678952
- License:
- Abstract: We propose Adam-mini, an optimizer that achieves on par or better performance than AdamW with 50% less memory footprint. Adam-mini reduces memory by cutting down the learning rate resources in Adam (i.e., $1/\sqrt{v}$). By investigating the Hessian structure of neural nets, we find Adam's $v$ might not function at its full potential as effectively as we expected. We find that $\geq$ 99.9% of these learning rates in $v$ could be harmlessly removed if we (1) carefully partition the parameters into blocks following our new principle on Hessian structure; (2) assign a single but good learning rate to each parameter block. We then provide one simple way to find good learning rates and propose Adam-mini. Empirically, we verify that Adam-mini performs on par or better than AdamW on various language models sized from 39M to 13B for pre-training, supervised fine-tuning, and RLHF. The reduced memory footprint of Adam-mini also alleviates communication overheads among GPUs, thereby increasing throughput. For instance, Adam-mini achieves 49.6% higher throughput than AdamW when pre-training Llama 2-7B on $2\times$ A800-80GB GPUs, which saves 33% wall-clock time for pre-training.
- Abstract(参考訳): 我々は,メモリフットプリントを50%削減したAdamWよりも同等以上のパフォーマンスを実現する最適化器Adam-miniを提案する。
Adam-miniは、Adamの学習率リソースを削減してメモリを削減する(つまり、1/\sqrt{v}$)。
ニューラルネットのヘッセン構造を調べることで、Adamの$v$は、期待したほど効果的に機能しないかもしれない。
これらの学習率の99.9%の$v$は、(1)ヘッセン構造に関する新しい原則に従うブロックにパラメータを慎重に分割すれば、無害に除去できる。
次に、よい学習率を見つけるための簡単な方法を提供し、Adam-miniを提案します。
実験により,Adam-mini が 39M から 13B までの大きさの様々な言語モデルにおいて,事前学習,教師付き微調整,RLHF に対して,Adam-mini がAdamW と同等以上の性能を示すことを確認した。
Adam-miniのメモリフットプリントの削減により、GPU間の通信オーバーヘッドが軽減され、スループットが向上する。
例えば、Adam-miniは、Llama 2-7Bを2\times$ A800-80GBで事前トレーニングする際にAdamWよりも49.6%高いスループットを達成した。
関連論文リスト
- Symbolic Discovery of Optimization Algorithms [132.62397077095787]
我々は,効率的な探索手法を用いて,無限小のプログラム空間を探索する。
提案手法は, 単純かつ効率的な最適化アルゴリズムである $textbfLion$ を探索する。
LionはGoogle検索広告CTRモデルのようなプロダクションシステムにうまくデプロイされている。
論文 参考訳(メタデータ) (2023-02-13T20:27:30Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Maximizing Communication Efficiency for Large-scale Training via 0/1
Adam [49.426602335460295]
1ビット通信はモデルトレーニングのスケールアップに有効な手法であり、SGDで広く研究されている。
我々は2つの新しい手法により最先端の1ビットAdamを改善する0/1Adamを提案する。
論文 参考訳(メタデータ) (2022-02-12T08:02:23Z) - Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。
AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。
我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文 参考訳(メタデータ) (2022-01-31T21:00:55Z) - How Do Adam and Training Strategies Help BNNs Optimization? [50.22482900678071]
我々は、AdamがBNNの粗い損失面を扱うのに適しており、より高い一般化能力でより良い最適値に達することを示す。
我々は、既存のAdamベースの最適化に基づいて、ImageNetデータセット上で70.5%のトップ1の精度を達成する簡単なトレーニングスキームを導出する。
論文 参考訳(メタデータ) (2021-06-21T17:59:51Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - EAdam Optimizer: How $\epsilon$ Impact Adam [7.0552555621312605]
本稿では,Adamに対する定数$epsilon$の影響について論じる。
この発見に基づいて,Adam の新たな変種 EAdam を提案する。
当社の手法はAdamと比較して大幅に改善できる。
論文 参考訳(メタデータ) (2020-11-04T06:39:44Z) - Adam with Bandit Sampling for Deep Learning [18.033149110113378]
我々は、異なるトレーニング例に適応できるAdambsと呼ばれるAdamの一般化を提案する。
様々なモデルとデータセットの実験は、実際にアダムスの高速収束を実証している。
論文 参考訳(メタデータ) (2020-10-24T21:01:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。