論文の概要: A Rank Stabilization Scaling Factor for Fine-Tuning with LoRA
- arxiv url: http://arxiv.org/abs/2312.03732v1
- Date: Tue, 28 Nov 2023 03:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 03:09:37.422248
- Title: A Rank Stabilization Scaling Factor for Fine-Tuning with LoRA
- Title(参考訳): LoRAを用いた微調整のためのランク安定化スケーリング因子
- Authors: Damjan Kalajdzievski
- Abstract要約: PEFTの一般的な手法はLoRA(Lo-Rank Adapters)であり、選択した層にトレーニング可能な低ランクの"アダプタ"を追加する。
このスケーリング係数は、アダプタをランクの要素で分割するので、ローラの学習が遅くなり、上位のアダプタでスタントのパフォーマンスが低下する。
我々はLoRAを適切なスケーリング係数で修正し、微調整の計算/性能トレードオフを容易に提供します。
- 参考スコア(独自算出の注目度): 0.7252027234425334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) have become increasingly compute and memory
intensive, parameter-efficient fine-tuning (PEFT) methods are now a common
strategy to fine-tune LLMs. A popular PEFT method is Low-Rank Adapters (LoRA),
which adds trainable low-rank "adapters" to selected layers. Each adapter
consists of a low-rank matrix product, multiplicatively scaled by a
rank-dependent factor. This scaling factor, which divides adapters by a factor
of the rank, results in slowed learning and stunted performance for LoRA with
higher-rank adapters. Consequently, the use of LoRA in practice has generally
been limited to very low ranks. In this work, we study the impact of the
scaling factor on the learning process and prove that LoRA adapters should be
divided by a factor of the square root of the rank. Modifying LoRA with the
appropriate scaling factor, which we call the rank-stabilized LoRA (rsLoRA)
method, easily provides for a fine-tuning compute/performance trade-off, where
larger ranks can be used to trade off increased computational resources during
training for better fine-tuning performance, with no change in inference
computing cost.
- Abstract(参考訳): 大規模言語モデル (LLM) はますます計算とメモリ集約化が進んでいるため、パラメータ効率のよい微調整法 (PEFT) がLLMを微調整するための一般的な戦略となっている。
PEFTの一般的な手法はLoRA(Lo-Rank Adapters)であり、選択した層にトレーニング可能な低ランクの"アダプタ"を追加する。
各アダプタは、ランク依存因子によって乗算スケールされた低ランク行列積からなる。
このスケーリング係数は、アダプタをランクの要素で分割するので、ローラの学習が遅くなり、上位のアダプタでパフォーマンスが低下する。
そのため、LoRAの使用は一般的に非常に低い階級に限られている。
本研究では,スケーリング因子が学習過程に与える影響について検討し,LoRAアダプタをランクの平方根の因子で分割すべきであることを証明した。
ランク安定化LoRA (rsLoRA) 法と呼ばれる,LoRAを適切なスケーリング係数で修正することで,計算資源の増大を抑えるための微調整/性能トレードオフを容易に実現することができる。
関連論文リスト
- LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - ALoRA: Allocating Low-Rank Adaptation for Fine-tuning Large Language Models [8.251547772610301]
低ランク適応 (LoRA) の方法論を、低ランク適応 (AloRA) と呼ぶ革新的なアプローチに拡張する。
まず,各ランクの重要度を効果的に推定できる新しい手法であるAB-LoRAを提案する。
第2に、AB-LoRAによって導かれ、我々は徐々にLoRAのランクに多く負の影響を及ぼし、高いランクを必要とする重要なトランスフォーマーモジュールにローラの予算を割り当てる。
論文 参考訳(メタデータ) (2024-03-24T15:09:55Z) - Improving LoRA in Privacy-preserving Federated Learning [44.47315926976059]
ローランク適応(ローランク適応、LoRA)は、事前訓練された言語モデルにおける最も一般的なタスク固有パラメータ効率細調整(PEFT)手法の1つである。
本稿では,これらの課題を緩和するために,LoRAの効率的かつ効果的なフェデレートフリーズA LoRA(FFA-LoRA)を提案する。
論文 参考訳(メタデータ) (2024-03-18T23:20:08Z) - ResLoRA: Identity Residual Mapping in Low-Rank Adaption [96.59370314485074]
低ランク適応(LoRA)の改良フレームワークであるResLoRAを提案する。
提案手法は,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,より少ないトレーニングステップでより良い結果を得ることができる。
NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-28T04:33:20Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。