論文の概要: Memory-efficient Training of LLMs with Larger Mini-batches
- arxiv url: http://arxiv.org/abs/2407.19580v1
- Date: Sun, 28 Jul 2024 20:39:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 15:45:34.554290
- Title: Memory-efficient Training of LLMs with Larger Mini-batches
- Title(参考訳): より大型のミニバッチを用いたLLMのメモリ効率向上
- Authors: Dang Nguyen, Wenhan Yang, Rathul Anand, Yu Yang, Baharan Mirzasoleiman,
- Abstract要約: より大きなミニバッチでトレーニングのダイナミクスをシミュレートする小さなミニバッチを見つける。
本研究では,本手法で検出した小型バッチに対して,より優れた収束率を証明し,その効果を実証的に示す。
提案手法は,MathInstruct上でPhi-2を微調整することで,メモリ要件を2倍に削減し,トレーニングを1.3倍高速化する。
- 参考スコア(独自算出の注目度): 41.59038171479036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training with larger mini-batches improves the performance and convergence rate of training machine learning models. However, training with large mini-batches becomes prohibitive for Large Language Models (LLMs) with billions of parameters, due to the large GPU memory requirement. To address this problem, we propose finding small mini-batches that simulate the dynamics of training with larger mini-batches. Specifically, we formulate selecting smaller mini-batches of examples that closely capture gradients of large mini-batches as a submodular maximization problem. Nevertheless, the very large dimensionality of the gradients makes the problem very challenging to solve. To address this, we leverage ideas from zeroth-order optimization and neural network pruning to find lower-dimensional gradient estimates that allow finding high-quality subsets effectively with a limited amount of memory. We prove the superior convergence rate of training on the small mini-batches found by our method and empirically show its effectiveness. Our method can effectively reduce the memory requirement by 2x and speed up training by 1.3x, as we confirm for fine-tuning Phi-2 on MathInstruct. Our method can be easily stacked with LoRA and other memory-efficient methods to further reduce the memory requirements of training LLMs.
- Abstract(参考訳): より大きなミニバッチによるトレーニングは、トレーニング機械学習モデルのパフォーマンスと収束率を改善する。
しかし、GPUメモリの要求が大きいため、数十億のパラメータを持つ大規模言語モデル(LLM)では、大規模なミニバッチによるトレーニングが禁止される。
この問題に対処するために,より大規模なミニバッチを用いたトレーニングのダイナミクスをシミュレートする小型ミニバッチを提案する。
具体的には、大小小バッチの勾配を極大化問題として、より小さな小バッチを選択する。
しかし、勾配の非常に大きな次元性は、問題を解くのを非常に困難にしている。
これを解決するために、ゼロ階最適化とニューラルネットワークプルーニングのアイデアを活用し、低次元勾配推定を求める。
本研究では,本手法で検出した小型バッチに対して,より優れた収束率を証明し,その効果を実証的に示す。
提案手法は,MathInstruct上でPhi-2を微調整することで,メモリ要件を2倍に削減し,トレーニングを1.3倍高速化する。
本手法は,LORAや他のメモリ効率のよい手法で容易に積み重ねることによって,LLMの学習におけるメモリ要求をさらに軽減することができる。
関連論文リスト
- MINI-SEQUENCE TRANSFORMER: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。
MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。
論文 参考訳(メタデータ) (2024-07-22T01:52:30Z) - BlockLLM: Memory-Efficient Adaptation of LLMs by Selecting and Optimizing the Right Coordinate Blocks [19.007090250576585]
BlockLLMはブロック座標降下にインスパイアされたアプローチである。
微調整と事前訓練の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-25T05:45:12Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models
for Financial Applications with High-Performance Computing [10.47214968497857]
本稿では,低ランク構造を利用した大規模言語モデルの事前学習と微調整を行う高性能手法を提案する。
本手法は精度低下を伴わずに保持できる1.3Xの高速化と2.64Xのモデル圧縮比を実現する。
ファインタニングでは,一般タスクと財務タスクの平均精度が6.3%,24.0%向上した。
論文 参考訳(メタデータ) (2024-02-21T05:03:17Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Enabling Large Batch Size Training for DNN Models Beyond the Memory Limit While Maintaining Performance [0.22499166814992438]
最近のディープラーニングモデルは、大規模なバッチサイズを使用してトレーニングするのは難しい。
マシンはモデルと大きなデータバッチサイズの両方に対応するのに十分なメモリを持っていないかもしれない。
本稿では,マイクロバッチ処理(MBP)と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2021-10-24T16:38:05Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Layered gradient accumulation and modular pipeline parallelism: fast and
efficient training of large language models [0.0]
分散トレーニングのさまざまな構成について、可能な限り最短のトレーニング時間を分析します。
本稿では,最短トレーニング時間を半減する2つの新しい手法,テキスト層勾配蓄積法とテキストモジュールパイプライン並列化法を提案する。
論文 参考訳(メタデータ) (2021-06-04T19:21:49Z) - Accelerated Large Batch Optimization of BERT Pretraining in 54 minutes [9.213729275749452]
そこで本研究では,大規模ミニバッチの学習効率を向上させるため,LANSと呼ばれる高速化勾配法を提案する。
192のAWS EC2 P3dn.24xlargeインスタンスで54分かかり、SQuAD v1.1で目標F1スコアが90.5以上に達する。
論文 参考訳(メタデータ) (2020-06-24T05:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。