論文の概要: Gradient Weight-normalized Low-rank Projection for Efficient LLM Training
- arxiv url: http://arxiv.org/abs/2412.19616v1
- Date: Fri, 27 Dec 2024 12:23:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:28:31.827832
- Title: Gradient Weight-normalized Low-rank Projection for Efficient LLM Training
- Title(参考訳): 高速LDMトレーニングのためのグラディエントウェイト正規化低ランク投影法
- Authors: Jia-Hong Huang, Yixian Shen, Hongyi Zhu, Stevan Rudinac, Evangelos Kanoulas,
- Abstract要約: 大規模言語モデル(LLM)は様々なタスクにおいて顕著な性能を示してきたが、計算資源に対する需要の増大は大きな課題となっている。
これを解決するために、パラメータ効率のよい微細チューニング法(PEFT)が開発されているが、完全な微細チューニングに比べて性能が劣ることが多い。
我々はGradNormLoRPを導入し、パラメータとメモリ効率を両立させながら、完全な微調整に匹敵する性能を維持した。
- 参考スコア(独自算出の注目度): 16.00576040281808
- License:
- Abstract: Large Language Models (LLMs) have shown remarkable performance across various tasks, but the escalating demands on computational resources pose significant challenges, particularly in the extensive utilization of full fine-tuning for downstream tasks. To address this, parameter-efficient fine-tuning (PEFT) methods have been developed, but they often underperform compared to full fine-tuning and struggle with memory efficiency. In this work, we introduce Gradient Weight-Normalized Low-Rank Projection (GradNormLoRP), a novel approach that enhances both parameter and memory efficiency while maintaining comparable performance to full fine-tuning. GradNormLoRP normalizes the weight matrix to improve gradient conditioning, facilitating better convergence during optimization. Additionally, it applies low-rank approximations to the weight and gradient matrices, significantly reducing memory usage during training. Extensive experiments demonstrate that our 8-bit GradNormLoRP reduces optimizer memory usage by up to 89.5% and enables the pre-training of large LLMs, such as LLaMA 7B, on consumer-level GPUs like the NVIDIA RTX 4090, without additional inference costs. Moreover, GradNormLoRP outperforms existing low-rank methods in fine-tuning tasks. For instance, when fine-tuning the RoBERTa model on all GLUE tasks with a rank of 8, GradNormLoRP achieves an average score of 80.65, surpassing LoRA's score of 79.23. These results underscore GradNormLoRP as a promising alternative for efficient LLM pre-training and fine-tuning. Source code and Appendix: https://github.com/Jhhuangkay/Gradient-Weight-normalized-Low-rank-Projection-for-Efficient-LLM-Train ing
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクで顕著な性能を示してきたが、計算資源に対する需要の増大は、特に下流タスクの完全な微調整を広範囲に活用する上で、大きな課題を招いている。
これを解決するために、パラメータ効率の良い微細チューニング法(PEFT)が開発されているが、完全な微細チューニングやメモリ効率との闘いに比べて性能が劣ることが多い。
本研究では,GradNormLoRP(Gradient Weight-Normalized Low-Rank Projection)を提案する。
GradNormLoRPは、重み行列を正規化し、勾配条件を改善する。
さらに、重量および勾配行列に低ランク近似を適用し、トレーニング中のメモリ使用量を大幅に削減する。
8ビットのGradNormLoRPは、最大89.5%の最適化メモリ使用量を削減し、推論コストを伴わずにNVIDIA RTX 4090のようなコンシューマレベルのGPU上でLLaMA 7Bのような大規模なLLMの事前トレーニングを可能にする。
さらに、GradNormLoRPは、微調整タスクで既存のローランクメソッドよりも優れています。
例えば、8ランクのGLUEタスクでRoBERTaモデルを微調整すると、GradNormLoRPは平均スコア80.65に達し、LoRAのスコア79.23を上回っている。
これらの結果から,GradNormLoRPをLLM事前学習および微調整のための有望な代替品として評価した。
ソースコードとアペンデックス:https://github.com/Jhhuangkay/Gradient-Weight-normalized-Low-rank-Projection-for-Efficient-LLM-Trai ning
関連論文リスト
- Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Flat-LoRA: Low-Rank Adaption over a Flat Loss Landscape [52.98187034726091]
Low-Rank Adaptation (LoRA) は低ランク行列のみを最適化することでモデルを微調整する効率的な方法である。
ロラ空間に平坦に見える解は、全パラメータ空間に鋭い方向が存在し、一般化性能を損なう可能性がある。
フルパラメータ空間の平坦領域に位置する低ランク適応を求める効率的なアプローチであるFlat-LoRAを提案する。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - SLTrain: a sparse plus low-rank approach for parameter and memory efficient pretraining [39.56934385513862]
大規模言語モデル(LLM)をゼロから訓練するには、計算能力と広範なメモリ容量が必要である。
最近の研究では、パラメータとメモリの点で効率的な微調整のための重量の低ランク構造を探索している。
本稿では,SLTrain と呼ばれる事前学習用低ランク行列とスパース行列の和として重みをパラメータ化することを提案する。
論文 参考訳(メタデータ) (2024-06-04T11:14:21Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - Flora: Low-Rank Adapters Are Secretly Gradient Compressors [30.224822087562163]
低ランク適応(LoRA)は、少ないパラメータをトレーニングすることで最適化状態を低減するために提案される。
LoRAは全体の重量更新行列を低ランクに制限し、モデル性能を制限している。
本稿では,プロジェクション行列を再サンプリングすることで高階更新を実現する Flora を提案する。
論文 参考訳(メタデータ) (2024-02-05T18:50:39Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Hyperparameter Optimization for Large Language Model Instruction-Tuning [6.743825167463901]
トレーニング済みLLMをブラックボックスとして微調整と検証を行うパイプライン全体について検討する。
本研究では,提案アルゴリズムを用いて高次パラメータの空間を効率的に探索し,チューニングモデルの性能向上と人為的アライメントを実現する。
論文 参考訳(メタデータ) (2023-12-01T22:03:12Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。