Fugu-MT 論文翻訳(概要): BAdam: A Memory Efficient Full Parameter Training Method for Large Language Models

論文の概要: BAdam: A Memory Efficient Full Parameter Training Method for Large Language Models

arxiv url: http://arxiv.org/abs/2404.02827v1
Date: Wed, 3 Apr 2024 15:59:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 17:01:36.442309
Title: BAdam: A Memory Efficient Full Parameter Training Method for Large Language Models
Title（参考訳）: BAdam:大規模言語モデルのためのメモリ効率の良いフルパラメータトレーニング手法
Authors: Qijun Luo, Hengxu Yu, Xiao Li,
Abstract要約: BAdamは、大きな言語モデルの完全なパラメータ微調整に対するメモリ効率のよいアプローチを提供する。その結果, BAdam は LoRA や LOMO と比較して収束挙動が優れていることが示唆された。
参考スコア（独自算出の注目度）: 4.265831047857601
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work presents BAdam, an optimizer that leverages the block coordinate optimization framework with Adam as the inner solver. BAdam offers a memory efficient approach to the full parameter finetuning of large language models and reduces running time of the backward process thanks to the chain rule property. Experimentally, we apply BAdam to instruction-tune the Llama 2-7B model on the Alpaca-GPT4 dataset using a single RTX3090-24GB GPU. The results indicate that BAdam exhibits superior convergence behavior in comparison to LoRA and LOMO. Furthermore, our downstream performance evaluation of the instruction-tuned models using the MT-bench shows that BAdam modestly surpasses LoRA and more substantially outperforms LOMO. Finally, we compare BAdam with Adam on a medium-sized task, i.e., finetuning RoBERTa-large on the SuperGLUE benchmark. The results demonstrate that BAdam is capable of narrowing the performance gap with Adam. Our code is available at https://github.com/Ledzy/BAdam.
Abstract（参考訳）: この研究は、ブロック座標最適化フレームワークを内部解法として活用した最適化器であるBAdamを提示する。 BAdamは、大きな言語モデルの完全なパラメータ微調整に対するメモリ効率のよいアプローチを提供し、チェーンルール特性のおかげで、後方プロセスの実行時間を短縮する。実験では,1つのRTX3090-24GB GPUを用いて,Alpaca-GPT4データセット上のLlama 2-7BモデルにBAdamを適用した。その結果, BAdam は LoRA や LOMO と比較して収束挙動が優れていることが示唆された。さらに、MT-benchを用いた命令調整モデルの下流性能評価により、BAdamはLoRAをわずかに上回り、LOMOをはるかに上回ることを示す。最後に、中規模のタスク、すなわちSuperGLUEベンチマークでRoBERTa-largeを微調整するタスクでBAdamとAdamを比較した。その結果、BAdamはAdamとのパフォーマンスギャップを狭めることができることがわかった。私たちのコードはhttps://github.com/Ledzy/BAdam.comで公開されています。

関連論文リスト

AdamS: Momentum Itself Can Be A Normalizer for LLM Pretraining and Post-training [22.58304858379219]
我々は,大規模言語モデル(LLM)の事前学習とポストトレーニングのための,Adamの簡易かつ効果的な代替手段であるAdamSを紹介した。新たな分母、すなわち運動量と現在の勾配の重み付き和の根を利用することにより、AdamSは第二モーメント推定の必要性を排除している。 AdamSは効率が良く、SGDのメモリと計算フットプリントと運動量とを一致させ、優れた最適化性能を提供する。
論文参考訳（メタデータ） (2025-05-22T08:16:48Z)
When Can You Get Away with Low Memory Adam? [48.30892531847662]
我々は、$textitSlimAdam$がAdamのパフォーマンスと安定性にマッチし、合計2回目で98%のコストを節約できることを示します。 code for $textitSlimAdam$はhttps://github.com/dayal-kalra/low-Memory-adamで入手できる。
論文参考訳（メタデータ） (2025-03-03T18:59:40Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
LDAdam: Adaptive Optimization from Low-Dimensional Gradient Statistics [37.21593513802284]
大規模なモデルをトレーニングするためのメモリ効率のよい勾配であるLDAdamを紹介する。 LDAdamは,言語モデルの精密かつ効率的な微調整と事前学習を可能にする。
論文参考訳（メタデータ） (2024-10-21T15:31:06Z)
Deconstructing What Makes a Good Optimizer for Language Models [7.9224468703944115]
SGD,Adafactor,Adam,Lionなどの最適化アルゴリズムを自己回帰言語モデリングの文脈で比較する。以上の結果から,SGDを除いて,これらのアルゴリズムは最適性能の両立が可能であることが示唆された。
論文参考訳（メタデータ） (2024-07-10T18:11:40Z)
MicroAdam: Accurate Adaptive Optimization with Low Space Overhead and Provable Convergence [35.17459630834073]
我々は,理論収束保証を維持しつつ,メモリオーバーヘッドを特に最小化するAdamの新たな変種を提案する。分散最適化から古典的エラーフィードバック機構の新たなインスタンスを用いて圧縮誤差を制御した。提案手法は, AMSGradと競合することを保証するとともに, 実用性も良好であることを示す。
論文参考訳（メタデータ） (2024-05-24T14:25:23Z)
Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文参考訳（メタデータ） (2024-01-29T18:43:49Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文参考訳（メタデータ） (2023-05-27T02:28:10Z)
Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文参考訳（メタデータ） (2022-08-21T14:57:47Z)
Maximizing Communication Efficiency for Large-scale Training via 0/1 Adam [49.426602335460295]
1ビット通信はモデルトレーニングのスケールアップに有効な手法であり、SGDで広く研究されている。我々は2つの新しい手法により最先端の1ビットAdamを改善する0/1Adamを提案する。
論文参考訳（メタデータ） (2022-02-12T08:02:23Z)
Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文参考訳（メタデータ） (2020-11-24T09:28:53Z)
EAdam Optimizer: How $\epsilon$ Impact Adam [7.0552555621312605]
本稿では,Adamに対する定数$epsilon$の影響について論じる。この発見に基づいて,Adam の新たな変種 EAdam を提案する。当社の手法はAdamと比較して大幅に改善できる。
論文参考訳（メタデータ） (2020-11-04T06:39:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。