論文の概要: LoRA Training in the NTK Regime has No Spurious Local Minima
- arxiv url: http://arxiv.org/abs/2402.11867v2
- Date: Mon, 27 May 2024 16:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 07:15:18.676626
- Title: LoRA Training in the NTK Regime has No Spurious Local Minima
- Title(参考訳): NTKレジームにおけるLoRAトレーニングは、すっきりした局所的なミニマを伴わない
- Authors: Uijeong Jang, Jason D. Lee, Ernest K. Ryu,
- Abstract要約: 低ランク適応(LoRA)は,大規模言語モデルのパラメータ効率向上のための標準手法となっている。
理論的には、ニューラルネットワークカーネルシステムにおけるLoRA微調整を$N$のデータポイントで解析する。
- 参考スコア(独自算出の注目度): 46.46792977614938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-rank adaptation (LoRA) has become the standard approach for parameter-efficient fine-tuning of large language models (LLM), but our theoretical understanding of LoRA has been limited. In this work, we theoretically analyze LoRA fine-tuning in the neural tangent kernel (NTK) regime with $N$ data points, showing: (i) full fine-tuning (without LoRA) admits a low-rank solution of rank $r\lesssim \sqrt{N}$; (ii) using LoRA with rank $r\gtrsim \sqrt{N}$ eliminates spurious local minima, allowing gradient descent to find the low-rank solutions; (iii) the low-rank solution found using LoRA generalizes well.
- Abstract(参考訳): 低ランク適応(LoRA)は,大規模言語モデル(LLM)のパラメータ効率の高い微調整の標準手法となっているが,ロRAの理論的理解は限られている。
本研究では,ニューラルネットワークカーネル(NTK)システムにおけるLoRA微細チューニングを理論的に解析し,以下の点を示す。
(i)完全微調整(LoRAなしで)は、階数$r\lesssim \sqrt{N}$の低ランク解を認める。
(ii) ランク $r\gtrsim \sqrt{N}$ の LoRA を用いることで、緩やかな局所ミニマを排除し、勾配降下により低階解を見つけることができる。
3) LoRA を用いた低ランク解はよく一般化される。
関連論文リスト
- Unlocking the Global Synergies in Low-Rank Adapters [20.32980343066711]
低ランク適応(LoRA)は、大規模言語モデルのためのデファクトパラメータ効率の高い微調整技術である。
本稿では、ゼロコストプロキシを利用して限られたLoRAトレーニングパラメータを割り当てる軽量探索アルゴリズムであるHeteroLoRAを提案する。
実験の結果、HeteroLoRAは同じパラメータのバッジでモデルパフォーマンスを改善することができることがわかった。
論文 参考訳(メタデータ) (2024-06-21T08:10:03Z) - LoRA Learns Less and Forgets Less [25.09261710396838]
Low-Rank Adaptation (LoRA) は、大規模言語モデルのパラメータ効率の高い微調整法である。
プログラムと数学の2つの対象領域におけるLoRAの性能と完全な微調整を比較した。
論文 参考訳(メタデータ) (2024-05-15T19:27:45Z) - ResLoRA: Identity Residual Mapping in Low-Rank Adaption [96.59370314485074]
低ランク適応(LoRA)の改良フレームワークであるResLoRAを提案する。
提案手法は,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,より少ないトレーニングステップでより良い結果を得ることができる。
NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-28T04:33:20Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - LoRA-drop: Efficient LoRA Parameter Pruning based on Output Evaluation [27.123271324468657]
Low-Rank Adaptation (LoRA)は、現在最も一般的に使われている言語である。
効率的な微細チューニング法(PEFT)。
各レイヤの補助パラメータを導入し、限られたコンピューティングリソースの下で事前訓練されたモデルを微調整する。
しかし、より大きなモデルにスケールアップする際には、依然としてリソース消費の課題に直面している。
論文 参考訳(メタデータ) (2024-02-12T15:34:56Z) - Run LoRA Run: Faster and Lighter LoRA Implementations [50.347242693025336]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。
本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。
実験は、言語モデリングネットワーク上で最大28%のスピードアップを示す。
論文 参考訳(メタデータ) (2023-12-06T10:54:34Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - The Expressive Power of Low-Rank Adaptation [11.371811534310078]
パラメータ効率のよい微調整法である低ランク適応は、微調整事前学習モデルの代表的な手法として登場した。
本稿では,LoRAの表現力を理論的に解析することで,ギャップを埋める第一歩を踏み出す。
トランスフォーマーネットワークでは、任意のモデルが、ランク=$(fractextembedding size2)$ LoRAで同じサイズのターゲットモデルに適応可能であることを示す。
論文 参考訳(メタデータ) (2023-10-26T16:08:33Z) - LoRA-FA: Memory-efficient Low-rank Adaptation for Large Language Models
Fine-tuning [19.08716369943138]
本稿では,性能劣化やコストのかかる再計算を伴わずに,メモリ効率のよい微調整法であるLoRA-FAを提案する。
この結果から,LORA-FAは全パラメータの微調整やLORAと比較して,各タスクにまたがる精密調整の精度が常に高いことがわかった。
論文 参考訳(メタデータ) (2023-08-07T05:12:27Z) - LoRAPrune: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。