論文の概要: The Expressive Power of Low-Rank Adaptation
- arxiv url: http://arxiv.org/abs/2310.17513v2
- Date: Fri, 27 Oct 2023 02:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 10:39:32.351015
- Title: The Expressive Power of Low-Rank Adaptation
- Title(参考訳): 低ランク適応の表現力
- Authors: Yuchen Zeng, Kangwook Lee
- Abstract要約: パラメータ効率のよい微調整法である低ランク適応は、微調整事前学習モデルの代表的な手法として登場した。
本稿では,LoRAの表現力を理論的に解析することで,ギャップを埋める第一歩を踏み出す。
トランスフォーマーネットワークでは、任意のモデルが、ランク=$(fractextembedding size2)$ LoRAで同じサイズのターゲットモデルに適応可能であることを示す。
- 参考スコア(独自算出の注目度): 13.434288885772496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-Rank Adaptation (LoRA), a parameter-efficient fine-tuning method that
leverages low-rank adaptation of weight matrices, has emerged as a prevalent
technique for fine-tuning pre-trained models such as large language models and
diffusion models. Despite its huge success in practice, the theoretical
underpinnings of LoRA have largely remained unexplored. This paper takes the
first step to bridge this gap by theoretically analyzing the expressive power
of LoRA. We prove that, for fully connected neural networks, LoRA can adapt any
model $f$ to accurately represent any smaller target model $\overline{f}$ if
LoRA-rank $\geq(\text{width of }f) \times \frac{\text{depth of
}\overline{f}}{\text{depth of }f}$. We also quantify the approximation error
when LoRA-rank is lower than the threshold. For Transformer networks, we show
any model can be adapted to a target model of the same size with
rank-$(\frac{\text{embedding size}}{2})$ LoRA adapters.
- Abstract(参考訳): 重み行列の低ランク適応を利用するパラメータ効率のよい微調整法であるLoRAは,大規模言語モデルや拡散モデルなどの事前学習モデルの微調整手法として広く用いられている。
実際に大きな成功を収めたにもかかわらず、ロラの理論的基盤は未解明のままである。
本稿では,ロラの表現力を理論的に解析することで,このギャップを埋める第一歩を踏み出す。
完全に接続されたニューラルネットワークの場合、LoRAは任意のモデル$f$を適用でき、任意の小さなターゲットモデルを表す$\overline{f}$ if LoRA-rank $\geq(\text{width of }f) \times \frac{\text{depth of }\overline{f}}{\text{depth of }f}$を正確に表現できる。
また,LoRAランクが閾値よりも低い場合の近似誤差を定量化する。
トランスフォーマーネットワークの場合、任意のモデルが、ランク-$(\frac{\text{embedding size}}{2})$ LoRAアダプタで同じサイズのターゲットモデルに適応可能であることを示す。
関連論文リスト
- LoRA vs Full Fine-tuning: An Illusion of Equivalence [76.11938177294178]
本研究では, 異なる微調整法が, スペクトル特性のレンズを用いてモデルの重み行列を解析することにより, 事前学習モデルを変化させる方法について検討した。
単一値分解が全く異なる構造を持つ全微調整およびLoRA収量行列が得られた。
イントルーダ次元がLoRAの微調整モデルになぜ現れるのか、なぜそれらが望ましくないのか、そしてどのようにしてその効果を最小化できるかを検討することで結論を下す。
論文 参考訳(メタデータ) (2024-10-28T17:14:01Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - LoRA+: Efficient Low Rank Adaptation of Large Models [13.074320303580361]
低ランク適応(LoRA)は,大幅モデル(埋め込み次元)の最適下微細化につながることを示す。
そこで, このLoRAの準最適性は, 適応行列 A と B の学習率を良好に設定することで, 簡単に補正可能であることを示す。
我々の実験では、LoRA$+$は、LoRAと同じ計算コストで性能(1-2$%の改善)と微調整速度($sim$2X SpeedUpまで)を改善する。
論文 参考訳(メタデータ) (2024-02-19T18:33:49Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - Riemannian Preconditioned LoRA for Fine-Tuning Foundation Models [45.72323731094864]
Low-Rank Adaptation (LoRA) は、パラメータ効率のよい微細チューニング(PEFT)法として人気がある。
本研究では,各勾配ステップに$r倍r$プレコンディショナーを導入することにより,LoRAトレーニングの強化について検討する。
論文 参考訳(メタデータ) (2024-02-04T05:05:43Z) - LoTR: Low Tensor Rank Weight Adaptation [47.4904143988667]
大規模言語モデル(LLM)のパラメータ効率向上のための新しいアプローチであるLoTRを導入する。
LoTRはテンソル分解の形でパラメータの勾配更新を表す。
低ランクテンソル表現を持つ層列の同時圧縮により、LoTRはより優れたパラメータ効率をアーカイブできる。
論文 参考訳(メタデータ) (2024-02-02T13:00:38Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - Delta-LoRA: Fine-Tuning High-Rank Parameters with the Delta of Low-Rank
Matrices [27.693028578653394]
Delta-LoRAは、ファインチューン大言語モデル(LLM)に対する新しいパラメータ効率のアプローチである
LoRAやAdaLoRAのような他の低ランク適応手法とは対照的に、Delta-LoRAは低ランク行列を$bA$と$bB$で更新するだけでなく、事前訓練された重みへの学習を広める。
論文 参考訳(メタデータ) (2023-09-05T17:40:34Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。