論文の概要: BAdam: A Memory Efficient Full Parameter Training Method for Large Language Models
- arxiv url: http://arxiv.org/abs/2404.02827v1
- Date: Wed, 3 Apr 2024 15:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 17:01:36.442309
- Title: BAdam: A Memory Efficient Full Parameter Training Method for Large Language Models
- Title(参考訳): BAdam:大規模言語モデルのためのメモリ効率の良いフルパラメータトレーニング手法
- Authors: Qijun Luo, Hengxu Yu, Xiao Li,
- Abstract要約: BAdamは、大きな言語モデルの完全なパラメータ微調整に対するメモリ効率のよいアプローチを提供する。
その結果, BAdam は LoRA や LOMO と比較して収束挙動が優れていることが示唆された。
- 参考スコア(独自算出の注目度): 4.265831047857601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents BAdam, an optimizer that leverages the block coordinate optimization framework with Adam as the inner solver. BAdam offers a memory efficient approach to the full parameter finetuning of large language models and reduces running time of the backward process thanks to the chain rule property. Experimentally, we apply BAdam to instruction-tune the Llama 2-7B model on the Alpaca-GPT4 dataset using a single RTX3090-24GB GPU. The results indicate that BAdam exhibits superior convergence behavior in comparison to LoRA and LOMO. Furthermore, our downstream performance evaluation of the instruction-tuned models using the MT-bench shows that BAdam modestly surpasses LoRA and more substantially outperforms LOMO. Finally, we compare BAdam with Adam on a medium-sized task, i.e., finetuning RoBERTa-large on the SuperGLUE benchmark. The results demonstrate that BAdam is capable of narrowing the performance gap with Adam. Our code is available at https://github.com/Ledzy/BAdam.
- Abstract(参考訳): この研究は、ブロック座標最適化フレームワークを内部解法として活用した最適化器であるBAdamを提示する。
BAdamは、大きな言語モデルの完全なパラメータ微調整に対するメモリ効率のよいアプローチを提供し、チェーンルール特性のおかげで、後方プロセスの実行時間を短縮する。
実験では,1つのRTX3090-24GB GPUを用いて,Alpaca-GPT4データセット上のLlama 2-7BモデルにBAdamを適用した。
その結果, BAdam は LoRA や LOMO と比較して収束挙動が優れていることが示唆された。
さらに、MT-benchを用いた命令調整モデルの下流性能評価により、BAdamはLoRAをわずかに上回り、LOMOをはるかに上回ることを示す。
最後に、中規模のタスク、すなわちSuperGLUEベンチマークでRoBERTa-largeを微調整するタスクでBAdamとAdamを比較した。
その結果、BAdamはAdamとのパフォーマンスギャップを狭めることができることがわかった。
私たちのコードはhttps://github.com/Ledzy/BAdam.comで公開されています。
関連論文リスト
- Mistral 7B [62.17530433867458]
Mistral 7Bはすべての評価ベンチマークでLlama 2 13B、推論、数学、コード生成でLlama 1 34Bを上回っている。
また、命令に従うように微調整されたモデルも提供します。 Mistral 7B -- Instructは、Llama 2 13Bを越え、人間と自動化ベンチマークの両方でチャットモデルを提供します。
論文 参考訳(メタデータ) (2023-10-10T17:54:58Z) - MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models [90.99663022952498]
SuperBは自己教師付き学習(SSL)音声モデルの様々なタスクにおける一般化性を評価するために提案された。
SuperBは大規模なデータセットと多様なタスクのために高い計算コストを発生させる。
我々は,SUPERBに匹敵する結果のSSL音声モデルを効率よく評価する軽量ベンチマークであるMiniSUPERBを紹介する。
論文 参考訳(メタデータ) (2023-05-30T13:07:33Z) - Noise Is Not the Main Factor Behind the Gap Between SGD and Adam on
Transformers, but Sign Descent Might Be [16.170888329408353]
大規模なバッチを持つAdamの挙動は、運動量を持つ符号降下と類似していることが示される。
我々は,SGDとAdamのパフォーマンスギャップにおいて,重み付けノイズと重み付けノイズが重要な要因ではないことを示す。
論文 参考訳(メタデータ) (2023-04-27T05:41:13Z) - Maximizing Communication Efficiency for Large-scale Training via 0/1
Adam [49.426602335460295]
1ビット通信はモデルトレーニングのスケールアップに有効な手法であり、SGDで広く研究されている。
我々は2つの新しい手法により最先端の1ビットAdamを改善する0/1Adamを提案する。
論文 参考訳(メタデータ) (2022-02-12T08:02:23Z) - Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。
AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。
我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文 参考訳(メタデータ) (2022-01-31T21:00:55Z) - How Do Adam and Training Strategies Help BNNs Optimization? [50.22482900678071]
我々は、AdamがBNNの粗い損失面を扱うのに適しており、より高い一般化能力でより良い最適値に達することを示す。
我々は、既存のAdamベースの最適化に基づいて、ImageNetデータセット上で70.5%のトップ1の精度を達成する簡単なトレーニングスキームを導出する。
論文 参考訳(メタデータ) (2021-06-21T17:59:51Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - EAdam Optimizer: How $\epsilon$ Impact Adam [7.0552555621312605]
本稿では,Adamに対する定数$epsilon$の影響について論じる。
この発見に基づいて,Adam の新たな変種 EAdam を提案する。
当社の手法はAdamと比較して大幅に改善できる。
論文 参考訳(メタデータ) (2020-11-04T06:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。