Fugu-MT 論文翻訳(概要): Mini-batch Coresets for Memory-efficient Training of Large Language Models

論文の概要: Mini-batch Coresets for Memory-efficient Training of Large Language Models

arxiv url: http://arxiv.org/abs/2407.19580v2
Date: Thu, 10 Oct 2024 17:25:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 14:27:29.682416
Title: Mini-batch Coresets for Memory-efficient Training of Large Language Models
Title（参考訳）: 大規模言語モデルの記憶効率向上のためのミニバッチコアセット
Authors: Dang Nguyen, Wenhan Yang, Rathul Anand, Yu Yang, Baharan Mirzasoleiman,
Abstract要約: 大規模言語モデル(LLM)における大規模ミニバッチの訓練の禁止化我々は、コアセットによるLLM訓練(CoLM)を提案する。 CoLMは、微調整のメモリ要求を2倍に減らし、4倍大きなミニバッチでトレーニングを上回ります。
参考スコア（独自算出の注目度）: 41.59038171479036
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training with larger mini-batches improves the convergence rate and can yield superior performance. However, training with large mini-batches becomes prohibitive for Large Language Models (LLMs), due to the large GPU memory requirement. To address this problem, an effective approach is finding small mini-batch coresets that closely match the gradient of larger mini-batches. However, this approach becomes infeasible and ineffective for LLMs, due to the highly imbalanced nature of the sources in language data, use of the Adam optimizer, and the very large gradient dimensionality of LLMs. In this work, we address the above challenges by proposing Coresets for Training LLMs (CoLM). First, we show that mini-batch coresets found by gradient matching do not contain representative examples of the small sources w.h.p., and thus including all examples of the small sources in the mini-batch coresets is crucial for optimal performance. Second, we normalize the gradients by their historical exponential to find mini-batch coresets for training with Adam. Finally, we leverage zeroth-order methods to find smooth gradient of the last V -projection matrix and sparsify it to keep the dimensions with the largest normalized gradient magnitude. We apply CoLM to fine-tuning Phi-2, Phi-3, and Zephyr with LoRA on MathInstruct and SuperGLUE benchmark. Remarkably, CoLM reduces the memory requirement of fine-tuning by 2x and even outperforms training with 4x larger mini-batches. Notably, CoLM easily stack with existing memory-efficient training methods, such as LoRA.
Abstract（参考訳）: より大型のミニバッチによるトレーニングは収束率を向上し、優れたパフォーマンスが得られる。しかし、大きなGPUメモリを必要とするため、大規模言語モデル(LLM)では、大規模なミニバッチによるトレーニングが禁止される。この問題に対処する効果的なアプローチは、より大きなミニバッチの勾配によく一致する小さなミニバッチコアセットを見つけることである。しかし、言語データのソースの高度に不均衡な性質、アダム・オプティマイザの使用、およびLLMの非常に大きな勾配次元性により、このアプローチはLLMにとって実現不可能で効果の低いものとなる。本研究では,コアセットを用いたLLM(Coresets for Training LLM)を提案することで,上記の課題に対処する。まず、勾配マッチングによって発見されたミニバッチコアセットは、小さなソースw.h.p.の代表的な例を含まないので、ミニバッチコアセット内の小さなソースのすべての例を含むことは、最適なパフォーマンスに不可欠であることを示す。第2に、アダムのトレーニングのためのミニバッチコアセットを見つけるために、歴史的指数関数による勾配の正規化を行う。最後に、ゼロ階法を利用して、最後のV-射影行列の滑らかな勾配を見つけ、その次元を最大正規化勾配等級で維持する。 We apply CoLM to fine-tuning Phi-2, Phi-3, Zephyr with LoRA on Math Instruct and SuperGLUE benchmark。注目すべきは、CoLMは微調整のメモリ要件を2倍に減らし、さらに4倍大きなミニバッチでトレーニングを上回ります。特に、CoLMはLoRAのような既存のメモリ効率のトレーニング手法で簡単にスタックできる。

関連論文リスト

Small Batch Size Training for Language Models: When Vanilla SGD Works, and Why Gradient Accumulation Is Wasteful [71.96579951744897]
従来の知恵では、小さなバッチサイズは言語モデルを事前訓練し、微調整を不安定にし、モチベーションを増進させる。本研究では,バッチサイズからバッチサイズまで,小さなバッチサイズを再検討し,Adamハイパーパラメータを小さなバッチサイズにスケールするためのルールを提案する。
論文参考訳（メタデータ） (2025-07-09T17:57:36Z)
CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation [17.807249890437767]
我々は,CoLAとそのメモリ効率向上実装であるCoLA-Mを紹介する。モデルアクティベーションにおいて広く観測される低ランク構造を利用して、モデルサイズを削減し、モデルのキャパシティを向上し、トレーニング効率を向上させる。 6000万から70億のパラメータを持つLLaMAモデルの実験では、CoLAはコンピューティングコストを$bf 2pmbtimes$で削減し、フルランクレベルのパフォーマンスを維持しながら、トレーニングスループットを$bf 1.86pmbtimes$で改善している。
論文参考訳（メタデータ） (2025-02-16T01:05:16Z)
Reassessing Layer Pruning in LLMs: New Insights and Methods [24.394438652261982]
単純なアプローチ、すなわち、最後の25%のレイヤをプルーニングし、その後にtextttlm_headと残りの3つのレイヤを微調整することで、非常に高いパフォーマンスが得られることを示す。私たちはHfaceで最適なモデルウェイトをリリースし、コードはGitHubで入手できる。
論文参考訳（メタデータ） (2024-11-23T13:31:16Z)
MINI-LLM: Memory-Efficient Structured Pruning for Large Language Models [20.958265043544603]
大規模言語モデル(LLM)は劇的に成長する。これらのモデルの圧縮と高速化の傾向が増している。本研究では, 粒度, アクティベーション, 勾配を適切に統合したハイブリッドプルーニング基準を提案する。
論文参考訳（メタデータ） (2024-07-16T12:59:44Z)
BlockLLM: Memory-Efficient Adaptation of LLMs by Selecting and Optimizing the Right Coordinate Blocks [19.007090250576585]
BlockLLMはブロック座標降下にインスパイアされたアプローチである。微調整と事前訓練の両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-25T05:45:12Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文参考訳（メタデータ） (2024-05-28T09:23:14Z)
FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models for Financial Applications with High-Performance Computing [10.47214968497857]
本稿では,低ランク構造を利用した大規模言語モデルの事前学習と微調整を行う高性能手法を提案する。本手法は精度低下を伴わずに保持できる1.3Xの高速化と2.64Xのモデル圧縮比を実現する。ファインタニングでは,一般タスクと財務タスクの平均精度が6.3%,24.0%向上した。
論文参考訳（メタデータ） (2024-02-21T05:03:17Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。より小さな言語モデルにLPMを蒸留するKD手法を提案する。提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文参考訳（メタデータ） (2023-06-14T14:44:03Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。 4つのNLPベンチマークで3つの結果を得た。
論文参考訳（メタデータ） (2023-05-03T17:50:56Z)
CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文参考訳（メタデータ） (2021-06-20T15:43:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。