論文の概要: Mini-batch Coresets for Memory-efficient Training of Large Language Models
- arxiv url: http://arxiv.org/abs/2407.19580v2
- Date: Thu, 10 Oct 2024 17:25:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 14:27:29.682416
- Title: Mini-batch Coresets for Memory-efficient Training of Large Language Models
- Title(参考訳): 大規模言語モデルの記憶効率向上のためのミニバッチコアセット
- Authors: Dang Nguyen, Wenhan Yang, Rathul Anand, Yu Yang, Baharan Mirzasoleiman,
- Abstract要約: 大規模言語モデル(LLM)における大規模ミニバッチの訓練の禁止化
我々は、コアセットによるLLM訓練(CoLM)を提案する。
CoLMは、微調整のメモリ要求を2倍に減らし、4倍大きなミニバッチでトレーニングを上回ります。
- 参考スコア(独自算出の注目度): 41.59038171479036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training with larger mini-batches improves the convergence rate and can yield superior performance. However, training with large mini-batches becomes prohibitive for Large Language Models (LLMs), due to the large GPU memory requirement. To address this problem, an effective approach is finding small mini-batch coresets that closely match the gradient of larger mini-batches. However, this approach becomes infeasible and ineffective for LLMs, due to the highly imbalanced nature of the sources in language data, use of the Adam optimizer, and the very large gradient dimensionality of LLMs. In this work, we address the above challenges by proposing Coresets for Training LLMs (CoLM). First, we show that mini-batch coresets found by gradient matching do not contain representative examples of the small sources w.h.p., and thus including all examples of the small sources in the mini-batch coresets is crucial for optimal performance. Second, we normalize the gradients by their historical exponential to find mini-batch coresets for training with Adam. Finally, we leverage zeroth-order methods to find smooth gradient of the last V -projection matrix and sparsify it to keep the dimensions with the largest normalized gradient magnitude. We apply CoLM to fine-tuning Phi-2, Phi-3, and Zephyr with LoRA on MathInstruct and SuperGLUE benchmark. Remarkably, CoLM reduces the memory requirement of fine-tuning by 2x and even outperforms training with 4x larger mini-batches. Notably, CoLM easily stack with existing memory-efficient training methods, such as LoRA.
- Abstract(参考訳): より大型のミニバッチによるトレーニングは収束率を向上し、優れたパフォーマンスが得られる。
しかし、大きなGPUメモリを必要とするため、大規模言語モデル(LLM)では、大規模なミニバッチによるトレーニングが禁止される。
この問題に対処する効果的なアプローチは、より大きなミニバッチの勾配によく一致する小さなミニバッチコアセットを見つけることである。
しかし、言語データのソースの高度に不均衡な性質、アダム・オプティマイザの使用、およびLLMの非常に大きな勾配次元性により、このアプローチはLLMにとって実現不可能で効果の低いものとなる。
本研究では,コアセットを用いたLLM(Coresets for Training LLM)を提案することで,上記の課題に対処する。
まず、勾配マッチングによって発見されたミニバッチコアセットは、小さなソースw.h.p.の代表的な例を含まないので、ミニバッチコアセット内の小さなソースのすべての例を含むことは、最適なパフォーマンスに不可欠であることを示す。
第2に、アダムのトレーニングのためのミニバッチコアセットを見つけるために、歴史的指数関数による勾配の正規化を行う。
最後に、ゼロ階法を利用して、最後のV-射影行列の滑らかな勾配を見つけ、その次元を最大正規化勾配等級で維持する。
We apply CoLM to fine-tuning Phi-2, Phi-3, Zephyr with LoRA on Math Instruct and SuperGLUE benchmark。
注目すべきは、CoLMは微調整のメモリ要件を2倍に減らし、さらに4倍大きなミニバッチでトレーニングを上回ります。
特に、CoLMはLoRAのような既存のメモリ効率のトレーニング手法で簡単にスタックできる。
関連論文リスト
- Reassessing Layer Pruning in LLMs: New Insights and Methods [24.394438652261982]
単純なアプローチ、すなわち、最後の25%のレイヤをプルーニングし、その後にtextttlm_headと残りの3つのレイヤを微調整することで、非常に高いパフォーマンスが得られることを示す。
私たちはHfaceで最適なモデルウェイトをリリースし、コードはGitHubで入手できる。
論文 参考訳(メタデータ) (2024-11-23T13:31:16Z) - MINI-LLM: Memory-Efficient Structured Pruning for Large Language Models [20.958265043544603]
大規模言語モデル(LLM)は劇的に成長する。
これらのモデルの圧縮と高速化の傾向が増している。
本研究では, 粒度, アクティベーション, 勾配を適切に統合したハイブリッドプルーニング基準を提案する。
論文 参考訳(メタデータ) (2024-07-16T12:59:44Z) - BlockLLM: Memory-Efficient Adaptation of LLMs by Selecting and Optimizing the Right Coordinate Blocks [19.007090250576585]
BlockLLMはブロック座標降下にインスパイアされたアプローチである。
微調整と事前訓練の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-25T05:45:12Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。
勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。
この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文 参考訳(メタデータ) (2024-05-28T09:23:14Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。