Fugu-MT 論文翻訳(概要): Memory-efficient Training of LLMs with Larger Mini-batches

論文の概要: Memory-efficient Training of LLMs with Larger Mini-batches

arxiv url: http://arxiv.org/abs/2407.19580v1
Date: Sun, 28 Jul 2024 20:39:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 15:45:34.554290
Title: Memory-efficient Training of LLMs with Larger Mini-batches
Title（参考訳）: より大型のミニバッチを用いたLLMのメモリ効率向上
Authors: Dang Nguyen, Wenhan Yang, Rathul Anand, Yu Yang, Baharan Mirzasoleiman,
Abstract要約: より大きなミニバッチでトレーニングのダイナミクスをシミュレートする小さなミニバッチを見つける。本研究では,本手法で検出した小型バッチに対して,より優れた収束率を証明し,その効果を実証的に示す。提案手法は,MathInstruct上でPhi-2を微調整することで,メモリ要件を2倍に削減し,トレーニングを1.3倍高速化する。
参考スコア（独自算出の注目度）: 41.59038171479036
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training with larger mini-batches improves the performance and convergence rate of training machine learning models. However, training with large mini-batches becomes prohibitive for Large Language Models (LLMs) with billions of parameters, due to the large GPU memory requirement. To address this problem, we propose finding small mini-batches that simulate the dynamics of training with larger mini-batches. Specifically, we formulate selecting smaller mini-batches of examples that closely capture gradients of large mini-batches as a submodular maximization problem. Nevertheless, the very large dimensionality of the gradients makes the problem very challenging to solve. To address this, we leverage ideas from zeroth-order optimization and neural network pruning to find lower-dimensional gradient estimates that allow finding high-quality subsets effectively with a limited amount of memory. We prove the superior convergence rate of training on the small mini-batches found by our method and empirically show its effectiveness. Our method can effectively reduce the memory requirement by 2x and speed up training by 1.3x, as we confirm for fine-tuning Phi-2 on MathInstruct. Our method can be easily stacked with LoRA and other memory-efficient methods to further reduce the memory requirements of training LLMs.
Abstract（参考訳）: より大きなミニバッチによるトレーニングは、トレーニング機械学習モデルのパフォーマンスと収束率を改善する。しかし、GPUメモリの要求が大きいため、数十億のパラメータを持つ大規模言語モデル(LLM)では、大規模なミニバッチによるトレーニングが禁止される。この問題に対処するために,より大規模なミニバッチを用いたトレーニングのダイナミクスをシミュレートする小型ミニバッチを提案する。具体的には、大小小バッチの勾配を極大化問題として、より小さな小バッチを選択する。しかし、勾配の非常に大きな次元性は、問題を解くのを非常に困難にしている。これを解決するために、ゼロ階最適化とニューラルネットワークプルーニングのアイデアを活用し、低次元勾配推定を求める。本研究では,本手法で検出した小型バッチに対して,より優れた収束率を証明し,その効果を実証的に示す。提案手法は,MathInstruct上でPhi-2を微調整することで,メモリ要件を2倍に削減し,トレーニングを1.3倍高速化する。本手法は,LORAや他のメモリ効率のよい手法で容易に積み重ねることによって,LLMの学習におけるメモリ要求をさらに軽減することができる。

関連論文リスト

Small Batch Size Training for Language Models: When Vanilla SGD Works, and Why Gradient Accumulation Is Wasteful [71.96579951744897]
従来の知恵では、小さなバッチサイズは言語モデルを事前訓練し、微調整を不安定にし、モチベーションを増進させる。本研究では,バッチサイズからバッチサイズまで,小さなバッチサイズを再検討し,Adamハイパーパラメータを小さなバッチサイズにスケールするためのルールを提案する。
論文参考訳（メタデータ） (2025-07-09T17:57:36Z)
CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation [17.807249890437767]
我々は,CoLAとそのメモリ効率向上実装であるCoLA-Mを紹介する。モデルアクティベーションにおいて広く観測される低ランク構造を利用して、モデルサイズを削減し、モデルのキャパシティを向上し、トレーニング効率を向上させる。 6000万から70億のパラメータを持つLLaMAモデルの実験では、CoLAはコンピューティングコストを$bf 2pmbtimes$で削減し、フルランクレベルのパフォーマンスを維持しながら、トレーニングスループットを$bf 1.86pmbtimes$で改善している。
論文参考訳（メタデータ） (2025-02-16T01:05:16Z)
Reassessing Layer Pruning in LLMs: New Insights and Methods [24.394438652261982]
単純なアプローチ、すなわち、最後の25%のレイヤをプルーニングし、その後にtextttlm_headと残りの3つのレイヤを微調整することで、非常に高いパフォーマンスが得られることを示す。私たちはHfaceで最適なモデルウェイトをリリースし、コードはGitHubで入手できる。
論文参考訳（メタデータ） (2024-11-23T13:31:16Z)
MINI-LLM: Memory-Efficient Structured Pruning for Large Language Models [20.958265043544603]
大規模言語モデル(LLM)は劇的に成長する。これらのモデルの圧縮と高速化の傾向が増している。本研究では, 粒度, アクティベーション, 勾配を適切に統合したハイブリッドプルーニング基準を提案する。
論文参考訳（メタデータ） (2024-07-16T12:59:44Z)
BlockLLM: Memory-Efficient Adaptation of LLMs by Selecting and Optimizing the Right Coordinate Blocks [19.007090250576585]
BlockLLMはブロック座標降下にインスパイアされたアプローチである。微調整と事前訓練の両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-25T05:45:12Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文参考訳（メタデータ） (2024-05-28T09:23:14Z)
FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models for Financial Applications with High-Performance Computing [10.47214968497857]
本稿では,低ランク構造を利用した大規模言語モデルの事前学習と微調整を行う高性能手法を提案する。本手法は精度低下を伴わずに保持できる1.3Xの高速化と2.64Xのモデル圧縮比を実現する。ファインタニングでは,一般タスクと財務タスクの平均精度が6.3%,24.0%向上した。
論文参考訳（メタデータ） (2024-02-21T05:03:17Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。より小さな言語モデルにLPMを蒸留するKD手法を提案する。提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文参考訳（メタデータ） (2023-06-14T14:44:03Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。 4つのNLPベンチマークで3つの結果を得た。
論文参考訳（メタデータ） (2023-05-03T17:50:56Z)
CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文参考訳（メタデータ） (2021-06-20T15:43:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。