論文の概要: SwitchLoRA: Switched Low-Rank Adaptation Can Learn Full-Rank Information
- arxiv url: http://arxiv.org/abs/2406.06564v3
- Date: Thu, 02 Jan 2025 17:02:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-03 14:35:39.553989
- Title: SwitchLoRA: Switched Low-Rank Adaptation Can Learn Full-Rank Information
- Title(参考訳): SwitchLoRA: フルランク情報を学習できる低ランク適応
- Authors: Kaiye Zhou, Shucheng Wang, Jun Xu,
- Abstract要約: ReLoRAやGaLoreのような手法は、低ランクのサブスペースを更新することでこの問題に対処しようとしている。
本稿では,LoRAのトレーニング可能なパラメータを代替パラメータに頻繁にスムーズに置き換える,パラメータ効率のトレーニング手法であるSwitchLoRAを紹介する。
- 参考スコア(独自算出の注目度): 3.6859322366469933
- License:
- Abstract: In the training of large language models, parameter-efficient techniques such as LoRA optimize memory usage and reduce communication overhead and memory usage during the fine-tuning phase. However, applying such techniques directly during the pre-training phase results in poor performance, primarily because the premature implementation of low-rank training significantly reduces model accuracy. Existing methods like ReLoRA and GaLore have attempted to address this challenge by updating the low-rank subspace. However, they still fall short of achieving the accuracy of full-rank training. Specifically, ReLoRA restricts the frequency of updates to preserve optimizer states consistency, hindering its ability to closely approximate full-rank training behavior. Meanwhile, GaLore relies on Singular Value Decomposition (SVD) to approximate the full-rank space, which introduces accuracy loss during the approximation process. In this paper, we introduce SwitchLoRA, a parameter-efficient training technique that frequently and smoothly replaces the trainable parameters of LoRA adapters with alternative parameters. SwitchLoRA updates the low-rank subspace incrementally, targeting only a few dimensions at a time to minimize the impact on optimizer states. This allows a higher update frequency, thereby enhancing accuracy by enabling the updated parameters to more closely mimic full-rank behavior during the pre-training phase. Our results demonstrate that SwitchLoRA actually surpasses full-rank training, reducing perplexity from 15.23 to 15.01 on the LLaMA 1.3B model, while also cutting communication overhead by 54\% and memory usage by 13\%. Furthermore, after full fine-tuning the SwitchLoRA pre-trained model and the full-rank pre-trained model on the GLUE benchmark, the SwitchLoRA pre-trained model showed an average accuracy gain of about 1\% over the full-rank pre-trained model.
- Abstract(参考訳): 大規模言語モデルのトレーニングでは、LoRAのようなパラメータ効率のよいテクニックがメモリ使用量を最適化し、微調整フェーズにおける通信オーバーヘッドとメモリ使用量を削減している。
しかし、これらの手法を事前学習フェーズで直接適用すると、主に低ランクトレーニングの早期実施によりモデルの精度が大幅に低下するため、性能が低下する。
ReLoRAやGaLoreのような既存の手法は、低ランクのサブスペースを更新することでこの問題に対処しようとしている。
しかし、それでもフルランクトレーニングの精度を達成するには至っていない。
具体的には、ReLoRAは、オプティマイザ状態の一貫性を維持するために更新頻度を制限し、フルランクのトレーニング動作を正確に近似する能力を妨げている。
一方、GaLoreは全階空間を近似するためにSingular Value Decomposition (SVD) を利用する。
本稿では,LoRAアダプタのトレーニング可能なパラメータを代替パラメータに頻繁にスムーズに置き換える,パラメータ効率のトレーニング手法であるSwitchLoRAを紹介する。
SwitchLoRAは低ランクのサブスペースを漸進的に更新し、オプティマイザ状態への影響を最小限に抑えるために、一度に数次元のみを対象としている。
これにより、更新頻度が高くなり、更新されたパラメータが事前トレーニングフェーズ中にフルランクの動作をより正確に模倣できるようにすることで、精度が向上する。
以上の結果から,SwitchLoRAはLLaMA 1.3Bモデルでは15.23から15.01に縮小し,通信オーバヘッドを54\%削減し,メモリ使用量を13\%削減した。
さらに, GLUEベンチマークにおいて, SwitchLoRA事前訓練モデルとフルランク事前訓練モデルを完全に微調整した後, SwitchLoRA事前訓練モデルの平均精度は, フルランク事前訓練モデルよりも約1\%向上した。
関連論文リスト
- Flat-LoRA: Low-Rank Adaption over a Flat Loss Landscape [52.98187034726091]
Low-Rank Adaptation (LoRA) は低ランク行列のみを最適化することでモデルを微調整する効率的な方法である。
ロラ空間に平坦に見える解は、全パラメータ空間に鋭い方向が存在し、一般化性能を損なう可能性がある。
フルパラメータ空間の平坦領域に位置する低ランク適応を求める効率的なアプローチであるFlat-LoRAを提案する。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - PC-LoRA: Low-Rank Adaptation for Progressive Model Compression with Knowledge Distillation [9.445321300673909]
ローランク適応(ローランク適応、LoRA)は、微調整のために凍結した事前学習重量に少数の学習可能なパラメータを付加する顕著な手法である。
本稿では,モデル圧縮と微調整を同時に行うProgressive Compression LoRA(PC-LoRA)を紹介する。
論文 参考訳(メタデータ) (2024-06-13T13:44:31Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - Run LoRA Run: Faster and Lighter LoRA Implementations [50.347242693025336]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。
本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。
実験は、言語モデリングネットワーク上で最大28%のスピードアップを示す。
論文 参考訳(メタデータ) (2023-12-06T10:54:34Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - ReLoRA: High-Rank Training Through Low-Rank Updates [14.606961537327345]
本稿では、低ランク更新を利用して高ランクネットワークをトレーニングするReLoRAという新しい手法を提案する。
ReLoRAはGPU当たり最大5.5GbのRAMを節約し、モデルサイズとハードウェア設定に応じてトレーニング速度を9~40%改善する。
論文 参考訳(メタデータ) (2023-07-11T18:02:09Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。