論文の概要: Fira: Can We Achieve Full-rank Training of LLMs Under Low-rank Constraint?
- arxiv url: http://arxiv.org/abs/2410.01623v2
- Date: Sat, 12 Oct 2024 08:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 16:34:50.661096
- Title: Fira: Can We Achieve Full-rank Training of LLMs Under Low-rank Constraint?
- Title(参考訳): Fira: LLMのフルランクトレーニングを低ランク制約下で達成できるか?
- Authors: Xi Chen, Kaituo Feng, Changsheng Li, Xunhao Lai, Xiangyu Yue, Ye Yuan, Guoren Wang,
- Abstract要約: 低ランクトレーニングは、大規模言語モデルのトレーニングにおいて、メモリ使用量を減らすための有望なアプローチとして登場した。
本研究では,この目標を達成するための最初の試みとして,Firaと呼ばれるLLM用のプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
FiraはLoRAとGaLoreのどちらよりも優れており、フルランクトレーニングに匹敵する、あるいはそれ以上のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 40.94505326255136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-rank training has emerged as a promising approach for reducing memory usage in training Large Language Models (LLMs). Previous methods either rely on decomposing weight matrices (e.g., LoRA), or seek to decompose gradient matrices (e.g., GaLore) to ensure reduced memory consumption. However, both of them constrain the training in a low-rank subspace, thus inevitably leading to sub-optimal performance. This raises a question: whether it is possible to consistently preserve the low-rank constraint for memory efficiency, while achieving full-rank training (i.e., training with full-rank gradients of full-rank weights) to avoid inferior outcomes? In this paper, we propose a new plug-and-play training framework for LLMs called Fira, as the first attempt to achieve this goal. First, we observe an interesting phenomenon during LLM training: the scaling impact of adaptive optimizers (e.g., Adam) on the gradient norm remains similar from low-rank to full-rank training. Based on this observation, we propose a norm-based scaling method, which utilizes the scaling impact of low-rank optimizers as substitutes for that of original full-rank optimizers to enable full-rank training. In this way, we can preserve the low-rank constraint in the optimizer while achieving full-rank training for better performance. Moreover, we find that there are sudden gradient rises during the optimization process, potentially causing loss spikes. To address this, we further put forward a norm-growth limiter to smooth the gradient via regulating the relative increase of gradient norms. Extensive experiments on the pre-training and fine-tuning of LLMs show that Fira outperforms both LoRA and GaLore, achieving performance that is comparable to or even better than full-rank training.
- Abstract(参考訳): 低ランクトレーニングは、大規模言語モデル(LLM)のトレーニングにおいて、メモリ使用量を減らすための有望なアプローチとして登場した。
従来の手法では、重量行列(例えばLoRA)を分解するか、勾配行列(例えばGaLore)を分解してメモリ消費を減らそうとしていた。
しかし、どちらも低ランクのサブスペースでのトレーニングを制限しており、必然的に準最適性能につながる。
これは、低ランクのメモリ効率の制約を一貫して維持できるかどうかという疑問を提起する一方で、劣悪な結果を避けるためにフルランクのトレーニング(フルランクのウェイト勾配でのトレーニング)を行うことができるのか?
本稿では,この目標を達成するための最初の試みとして,Firaと呼ばれるLLM用のプラグイン・アンド・プレイ・トレーニングフレームワークを提案する。
適応オプティマイザ(例えばAdam)の勾配ノルムへのスケーリング効果は、低ランクからフルランクのトレーニングに類似している。
そこで本研究では,低ランクオプティマイザのスケーリング効果を,オリジナルフルランクオプティマイザのスケーリング効果の代替として活用し,フルランクトレーニングを実現するための標準スケーリング手法を提案する。
このようにして、オプティマイザの低ランク制約を保ちつつ、フルランクトレーニングを達成し、パフォーマンスを向上させることができる。
さらに,最適化プロセス中に突然勾配が上昇し,損失のスパイクが発生する可能性が示唆された。
これを解決するために、勾配ノルムの相対的な増加を規制し、勾配を滑らかにするためにノルム成長制限器をさらに推進した。
LLMの事前トレーニングと微調整に関する大規模な実験は、FiraがLoRAとGaLoreの両方を上回り、フルランクトレーニングに匹敵する、あるいはそれ以上のパフォーマンスを達成したことを示している。
関連論文リスト
- AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。
低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。
トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-23T13:53:26Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。
WeLore(Weight Low-Rank Projection)を提案する。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - BlockLLM: Memory-Efficient Adaptation of LLMs by Selecting and Optimizing the Right Coordinate Blocks [19.007090250576585]
BlockLLMはブロック座標降下にインスパイアされたアプローチである。
微調整と事前訓練の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-25T05:45:12Z) - SLTrain: a sparse plus low-rank approach for parameter and memory efficient pretraining [39.56934385513862]
大規模言語モデル(LLM)をゼロから訓練するには、計算能力と広範なメモリ容量が必要である。
最近の研究では、パラメータとメモリの点で効率的な微調整のための重量の低ランク構造を探索している。
本稿では,SLTrain と呼ばれる事前学習用低ランク行列とスパース行列の和として重みをパラメータ化することを提案する。
論文 参考訳(メタデータ) (2024-06-04T11:14:21Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - InRank: Incremental Low-Rank Learning [85.6380047359139]
勾配に基づくトレーニングは、トレーニング中のランクの段階的な増加を通じて、ニューラルネットワークを低ランクのソリューションに向けて暗黙的に正規化する。
既存のトレーニングアルゴリズムでは、計算効率を向上させるために、ローランクな特性を活用できない。
InRank(Incremental Low-Rank Learning)は,低ランク行列として累積重み更新を明示的に表現する学習アルゴリズムである。
論文 参考訳(メタデータ) (2023-06-20T03:03:04Z) - In-Loop Meta-Learning with Gradient-Alignment Reward [34.1954698584925]
本稿では,GAR(グラデーション・アライメント・アライメント・アワード)という,低コストで計算可能なメモリ節約報酬を提案する。
まず、複数のデータセットを分割した混合データとして、GARを用いてデータ分布を選択する。
第2に,CIFAR-10とCIFAR-100の最先端の強化戦略と競合する学習増強戦略の導出に成功していることを示す。
論文 参考訳(メタデータ) (2021-02-05T16:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。