論文の概要: ALLoRA: Adaptive Learning Rate Mitigates LoRA Fatal Flaws
- arxiv url: http://arxiv.org/abs/2410.09692v1
- Date: Sun, 13 Oct 2024 01:57:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 08:46:35.242900
- Title: ALLoRA: Adaptive Learning Rate Mitigates LoRA Fatal Flaws
- Title(参考訳): aloRA:LoRAの致命的欠陥を軽減する適応的学習率
- Authors: Hai Huang, Randall Balestriero,
- Abstract要約: Low-Rank Adaptation (LoRA)は、Large Language Modelファインタニングのパンとバターである。
LoRAの微調整には,データ量やトレーニング手順の制限が3つあります。
私たちは、Adaptive Learning rate-coined ALLoRAを使ったDropout-free、スケーリングなし、LoRAというエレガントなソリューションを見つけました。
- 参考スコア(独自算出の注目度): 14.17396731469533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-Rank Adaptation (LoRA) is the bread and butter of Large Language Model (LLM) finetuning. LoRA learns an additive low-rank perturbation, $AB$, of a pretrained matrix parameter $W$ to align the model to a new task or dataset with $W+AB$. We identify three core limitations to LoRA for finetuning--a setting that employs limited amount of data and training steps. First, LoRA employs Dropout to prevent overfitting. We prove that Dropout is only suitable for long training episodes but fails to converge to a reliable regularizer for short training episodes. Second, LoRA's initialization of $B$ at $0$ creates a slow training dynamic between $A$ and $B$. That dynamic is also exacerbated by Dropout that further slows the escape from $0$ for $B$ which is particularly harmful for short training episodes. Third, the scaling factor multiplying each LoRA additive perturbation creates ``short-sighted'' interactions between the LoRA modules of different layers. Motivated by principled analysis of those limitations, we find an elegant solution: a Dropout-free, scaling-free, LoRA with Adaptive Learning rate--coined ALLoRA. By scaling the per sample and per parameter gradients with a coefficient inversely proportional to parameters' $\ell_2$ norm, ALLoRA alleviates those three limitations. As a by-product, ALLoRA removes two hyper-parameters from LoRA: the scaling factor and the dropout rate. Empirical results show that ALLoRA admits better accuracy than LoRA on various settings, including against recent LoRA variants such as Weight-Decomposed Low-Rank Adaptation (DoRA). Ablation studies show our solution is the optimal in a family of weight-dependent / output-dependent approaches on various LLMs including the latest Llama3.
- Abstract(参考訳): Low-Rank Adaptation (LoRA)はLarge Language Model (LLM)ファインタニングのパンとバターである。
LoRAは、事前訓練された行列パラメータ$W$の付加的な低ランク摂動、$AB$を学び、新しいタスクやデータセットに$W+AB$でモデルを整列させる。
LoRAの微調整には,データ量やトレーニング手順の制限が3つあります。
まず、LoRAはオーバーフィッティングを防ぐためにDropoutを使用している。
我々は,Dropoutが長期トレーニングエピソードにのみ適しているが,短時間トレーニングエピソードの信頼性の高い正規化器に収束しないことを証明した。
第二に、LoRAが$B$を$0$に初期化すると、$A$と$B$の間の遅いトレーニングのダイナミクスが生成される。
このダイナミクスはDropoutによってさらに悪化し、短いトレーニングエピソードでは特に有害な$0$から$B$へのエスケープをさらに遅くする。
第三に、各LoRA加法摂動を乗算するスケーリング係数は、異なるレイヤのLoRAモジュール間の ``short-sighted'' 相互作用を生成する。
これらの制限を原則として分析した結果、Dropout-free, Scaling-free, LoRA with Adaptive Learning rate-coined aloRAという、エレガントなソリューションが得られました。
サンプルあたりとパラメータごとの勾配をパラメータの$\ell_2$ノルムに逆比例してスケーリングすることで、alloRAはこれらの3つの制限を緩和する。
副産物として、alloRAはLoRAから2つのハイパーパラメータ(スケーリング係数とドロップアウト率)を除去する。
実験の結果,最近のLoRA変種であるDoRA (Weight-Decomposed Low-Rank Adaptation) に対して,AlloRAはLoRAよりも精度が高いことがわかった。
アブレーション法では, 最新のLlama3を含む様々なLLMに対して, 重量依存/出力依存のアプローチが最適であることが示された。
関連論文リスト
- LoRA vs Full Fine-tuning: An Illusion of Equivalence [76.11938177294178]
本研究では, 異なる微調整法が, スペクトル特性のレンズを用いてモデルの重み行列を解析することにより, 事前学習モデルを変化させる方法について検討した。
単一値分解が全く異なる構造を持つ全微調整およびLoRA収量行列が得られた。
イントルーダ次元がLoRAの微調整モデルになぜ現れるのか、なぜそれらが望ましくないのか、そしてどのようにしてその効果を最小化できるかを検討することで結論を下す。
論文 参考訳(メタデータ) (2024-10-28T17:14:01Z) - LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - LoRA Learns Less and Forgets Less [25.09261710396838]
Low-Rank Adaptation (LoRA) は、大規模言語モデルのパラメータ効率の高い微調整法である。
プログラムと数学の2つの対象領域におけるLoRAの性能と完全な微調整を比較した。
論文 参考訳(メタデータ) (2024-05-15T19:27:45Z) - ResLoRA: Identity Residual Mapping in Low-Rank Adaption [96.59370314485074]
低ランク適応(LoRA)の改良フレームワークであるResLoRAを提案する。
提案手法は,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,より少ないトレーニングステップでより良い結果を得ることができる。
NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-28T04:33:20Z) - PeriodicLoRA: Breaking the Low-Rank Bottleneck in LoRA Optimization [39.30090456724925]
監視された微調整は、下流タスクに大規模言語モデル(LLM)を適用する最も一般的な方法である。
完全な微調整には膨大な計算資源が必要である。
LoRAは最も広く使われている手法の1つであり、最適化過程は本質的に低次元であると仮定する。
論文 参考訳(メタデータ) (2024-02-25T16:43:41Z) - LoRA Training in the NTK Regime has No Spurious Local Minima [46.46792977614938]
低ランク適応(LoRA)は,大規模言語モデルのパラメータ効率向上のための標準手法となっている。
理論的には、ニューラルネットワークカーネルシステムにおけるLoRA微調整を$N$のデータポイントで解析する。
論文 参考訳(メタデータ) (2024-02-19T06:22:09Z) - LoRA-Flow: Dynamic LoRA Fusion for Large Language Models in Generative
Tasks [72.88244322513039]
LoRAは、ダウンストリームタスクやドメイン毎に大きな言語モデル(LLM)をカスタマイズするために軽量モジュールを使用している。
動的重みを利用して異なるLoRAの影響を調整するLoRA-Flowを提案する。
6つの生成タスクに対する実験により、我々の手法はタスクレベルの融合重みでベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2024-02-18T04:41:25Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - LoRA-FA: Memory-efficient Low-rank Adaptation for Large Language Models
Fine-tuning [19.08716369943138]
本稿では,性能劣化やコストのかかる再計算を伴わずに,メモリ効率のよい微調整法であるLoRA-FAを提案する。
この結果から,LORA-FAは全パラメータの微調整やLORAと比較して,各タスクにまたがる精密調整の精度が常に高いことがわかった。
論文 参考訳(メタデータ) (2023-08-07T05:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。