論文の概要: Natural GaLore: Accelerating GaLore for memory-efficient LLM Training and Fine-tuning
- arxiv url: http://arxiv.org/abs/2410.16029v1
- Date: Mon, 21 Oct 2024 14:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:16:09.699275
- Title: Natural GaLore: Accelerating GaLore for memory-efficient LLM Training and Fine-tuning
- Title(参考訳): Natural GaLore: メモリ効率のLLMトレーニングと微調整のための高速化GaLore
- Authors: Arijit Das,
- Abstract要約: GaLoreは、よりメモリ効率の良いフル教師付き学習を可能にする。
本研究はNatural GaLoreを導入し,低ランク勾配に対する逆経験的漁業情報行列を効率的に適用する。
- 参考スコア(独自算出の注目度): 1.3597551064547502
- License:
- Abstract: Training LLMs presents significant memory challenges due to growing size of data, weights, and optimizer states. Techniques such as data and model parallelism, gradient checkpointing, and offloading strategies address this issue but are often infeasible due to hardware constraints. To mitigate memory usage, alternative methods like Parameter-Efficient-Fine-Tuning (PEFT) and GaLore approximate weights or optimizer states. PEFT methods, such as LoRA, have gained popularity for fine-tuning LLMs, though they require a full-rank warm start. In contrast, GaLore allows full-parameter learning while being more memory-efficient. This work introduces Natural GaLore, a simple drop in replacement for AdamW, which efficiently applies the inverse Empirical Fisher Information Matrix to low-rank gradients using Woodbury's Identity. We demonstrate that incorporating second-order information speeds up optimization significantly, especially when the iteration budget is limited. Empirical pretraining on 60M, 130M, 350M, and 1.1B parameter Llama models on C4 data demonstrate significantly lower perplexity over GaLore without additional memory overhead. By fine-tuning RoBERTa on the GLUE benchmark using Natural GaLore, we demonstrate significant reduction in gap 86.05% vs 86.28% for full-finetuning. Furthermore, fine-tuning the TinyLlama 1.1B model for function calling using the TinyAgent framework shows that Natural GaLore achieving 83.09% accuracy on the TinyAgent dataset, significantly outperforms 16-bit LoRA at 80.06% and even surpasses GPT4-Turbo by 4%, all while using 30% less memory. All code to reproduce the results are available at: https://github.com/selfsupervised-ai/Natural-GaLore.git
- Abstract(参考訳): LLMのトレーニングは、データ、重み付け、オプティマイザ状態の増大によるメモリ上の大きな課題を示す。
データやモデルの並列性、勾配チェックポイント、オフロード戦略といったテクニックはこの問題に対処するが、ハードウェアの制約のためにしばしば実現不可能である。
メモリ使用量を減らすために、パラメータ効率・Fine-Tuning(PEFT)やGaLore近似重み付けやオプティマイザ状態などの代替手法を用いる。
LoRAのようなPEFTメソッドは、フルランクのウォームスタートを必要とするが、微調整のLLMで人気を集めている。
対照的に、GaLoreはよりメモリ効率の良いフルパラメータ学習を可能にする。
本研究では,AdamWの代替としてNatural GaLoreを導入し,WoodburyのIdentityを用いた低ランク勾配に対して,逆経験的漁業情報行列を効率よく適用した。
特にイテレーション予算が限られている場合,2次情報の導入によって最適化が大幅にスピードアップすることを示す。
C4データ上の60M, 130M, 350M, 1.1BパラメータのLlamaモデルに対する実験的な事前トレーニングは、メモリオーバーヘッドを増すことなく、GaLoreよりもはるかに低いパープレクシリティを示す。
Natural GaLore を用いて GLUE ベンチマークで RoBERTa を微調整することにより、フルファインタニングでは 86.05% 対 86.28% のギャップが大幅に減少することを示した。
さらに、TinyAgentフレームワークを使用した関数呼び出しのためのTinyLlama 1.1Bモデルを微調整すると、Natural GaLoreはTinyAgentデータセットで83.09%の精度を達成し、16ビットのLoRAを80.06%で大幅に上回り、GPT4-Turboを4%上回った。
結果を再現するすべてのコードは、https://github.com/selfsupervised-ai/Natural-GaLore.gitで入手できる。
関連論文リスト
- LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。
本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-11T08:42:58Z) - OwLore: Outlier-weighed Layerwise Sampled Low-Rank Projection for Memory-Efficient LLM Fine-tuning [18.102930806071978]
Outlier-weighed Layerwise Smpled Low-Rank Projection (OwLore) はメモリ効率の良い微調整手法である。
OwLoreは、完全な微調整を含むベースラインアプローチを一貫して上回る。
論文 参考訳(メタデータ) (2024-05-28T17:22:22Z) - LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning [31.088229461632206]
大規模言語モデル(LLM)は大規模トレーニングにおいて重要な障害となっている。
ローランド適応(LoRA)はこの問題を軽減するために提案されている。
微調整作業におけるLoRAの層状特性について検討し、予期せぬが一貫した重みノルムの歪さを観察する。
私たちはLayerwise Importance Sampled AdamW (LISA)と名付けた。
論文 参考訳(メタデータ) (2024-03-26T17:55:02Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - Full Parameter Fine-tuning for Large Language Models with Limited Resources [55.794732214059806]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。
我々は,メモリ使用量を削減するために,勾配とパラメータの更新を1ステップで融合する新しい計算,LOMO(LOw-Memory Optimization)を提案する。
論文 参考訳(メタデータ) (2023-06-16T11:37:15Z) - QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。
QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する
最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文 参考訳(メタデータ) (2023-05-23T17:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。