Fugu-MT 論文翻訳(概要): LoRA Training in the NTK Regime has No Spurious Local Minima

論文の概要: LoRA Training in the NTK Regime has No Spurious Local Minima

arxiv url: http://arxiv.org/abs/2402.11867v1
Date: Mon, 19 Feb 2024 06:22:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 18:01:36.631487
Title: LoRA Training in the NTK Regime has No Spurious Local Minima
Title（参考訳）: NTKレジームにおけるLoRAトレーニング : すっきりした局所性ミニマ
Authors: Uijeong Jang, Jason D. Lee, Ernest K. Ryu
Abstract要約: 低ランク適応(LoRA)は,大規模言語モデルのパラメータ効率向上のための標準手法となっている。理論的には、ニューラルネットワークカーネルシステムにおけるLoRA微調整を$N$のデータポイントで解析する。
参考スコア（独自算出の注目度）: 52.22529629083143
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Low-rank adaptation (LoRA) has become the standard approach for parameter-efficient fine-tuning of large language models (LLM), but our theoretical understanding of LoRA has been limited. In this work, we theoretically analyze LoRA fine-tuning in the neural tangent kernel (NTK) regime with $N$ data points, showing: (i) full fine-tuning (without LoRA) admits a low-rank solution of rank $r\lesssim \sqrt{N}$; (ii) using LoRA with rank $r\gtrsim \sqrt{N}$ eliminates spurious local minima, allowing gradient descent to find the low-rank solutions; (iii) the low-rank solution found using LoRA generalizes well.
Abstract（参考訳）: 低ランク適応(LoRA)は,大規模言語モデル(LLM)のパラメータ効率の高い微調整の標準手法となっているが,ロRAの理論的理解は限られている。本研究では,ニューラルネットワークカーネル(NTK)システムにおけるLoRA微細チューニングを理論的に解析し,以下の点を示す。 (i)完全微調整(LoRAなしで)は、階数$r\lesssim \sqrt{N}$の低ランク解を認める。 (ii) ランク $r\gtrsim \sqrt{N}$ の LoRA を用いることで、緩やかな局所ミニマを排除し、勾配降下により低階解を見つけることができる。 3) LoRA を用いた低ランク解はよく一般化される。

関連論文リスト

Faster Than SVD, Smarter Than SGD: The OPLoRA Alternating Update [50.36542772932594]
Low-Rank Adaptation (LoRA) は、凍結重量の上の低ランク更新を学習することで、大きなモデルを微調整する。ローランクプロジェクションによる完全なトレーニング(SVDLoRA)とLoRAファインチューニングの間にはまだギャップがあり、LoRAのステップをさらに改善できることを示している。
論文参考訳（メタデータ） (2025-09-24T10:32:50Z)
Uni-LoRA: One Vector is All You Need [21.893406288629734]
Low-Rank Adaptation (LoRA) は、大規模言語モデルのための事実上のパラメータ効率の微調整(PEFT)手法となっている。 Tied-LoRA、VeRA、VB-LoRAといった最近の研究は、トレーニング可能なパラメータ空間を減らすために追加の制約を導入することで、さらなる効率を推し進めている。パラメータ空間削減戦略は, 統一フレームワークUni-LoRA内で定式化可能であることを示す。
論文参考訳（メタデータ） (2025-06-01T03:00:09Z)
LoRA-GGPO: Mitigating Double Descent in LoRA Fine-Tuning via Gradient-Guided Perturbation Optimization [12.504723188498]
大規模言語モデル(LLM)は自然言語処理において顕著な成功を収めた。 Low-Rank Adaptation (LoRA)は、パラメータ更新を低ランク行列で近似することで、実用的なソリューションとして登場した。 LoRA-GGPOは、勾配とウェイトノルムを利用して標的摂動を生成する新しい手法である。
論文参考訳（メタデータ） (2025-02-20T13:14:41Z)
BeamLoRA: Beam-Constraint Low-Rank Adaptation [51.52097743781401]
Low-Rank Adaptation (LoRA) はパラメータ効率の良い微調整法として広く採用されている。本研究では,各LoRAモジュールを,各ランクが潜在的サブソリューションに対応するビームとして概念化するビームロラを提案する。
論文参考訳（メタデータ） (2025-02-19T10:33:22Z)
LoRA Training Provably Converges to a Low-Rank Global Minimum or It Fails Loudly (But it Probably Won't Fail) [15.381439594872898]
低ランク適応 (LoRA) は、大規模な基礎モデルを微調整するための標準的アプローチとなっている。また,LoRAトレーニングは,低ランクで大小のグローバル・ミニマライザに収束することを示した。 LoRAトレーニングにおけるゼロ初期化と重み劣化は、低ランクで小さなマグニチュード領域に対して暗黙の偏りを生じさせると論じる。
論文参考訳（メタデータ） (2025-02-13T14:45:11Z)
RepLoRA: Reparameterizing Low-Rank Adaptation via the Perspective of Mixture of Experts [37.43961020113692]
Low-rank Adaptation (LoRA) は、大規模基盤モデルを微調整するための強力な手法として登場した。本稿では,LoRAモデルとMixture of Expertsモデルとの関連性を検討することによって,ロラの理論解析を行う。
論文参考訳（メタデータ） (2025-02-05T10:03:09Z)
ALLoRA: Adaptive Learning Rate Mitigates LoRA Fatal Flaws [14.17396731469533]
Low-Rank Adaptation (LoRA)は、Large Language Modelファインタニングのパンとバターである。 LoRAの微調整には,データ量やトレーニング手順の制限が3つあります。私たちは、Adaptive Learning rate-coined ALLoRAを使ったDropout-free、スケーリングなし、LoRAというエレガントなソリューションを見つけました。
論文参考訳（メタデータ） (2024-10-13T01:57:38Z)
Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。 LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-10T18:51:53Z)
Flat-LoRA: Low-Rank Adaption over a Flat Loss Landscape [52.98187034726091]
Low-Rank Adaptation (LoRA) は低ランク行列のみを最適化することでモデルを微調整する効率的な方法である。ロラ空間に平坦に見える解は、全パラメータ空間に鋭い方向が存在し、一般化性能を損なう可能性がある。フルパラメータ空間の平坦領域に位置する低ランク適応を求める効率的なアプローチであるFlat-LoRAを提案する。
論文参考訳（メタデータ） (2024-09-22T11:24:10Z)
LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文参考訳（メタデータ） (2024-07-25T17:57:12Z)
LoRA Learns Less and Forgets Less [25.09261710396838]
Low-Rank Adaptation (LoRA) は、大規模言語モデルのパラメータ効率の高い微調整法である。プログラムと数学の2つの対象領域におけるLoRAの性能と完全な微調整を比較した。
論文参考訳（メタデータ） (2024-05-15T19:27:45Z)
ResLoRA: Identity Residual Mapping in Low-Rank Adaption [96.59370314485074]
低ランク適応(LoRA)の改良フレームワークであるResLoRAを提案する。提案手法は,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,より少ないトレーニングステップでより良い結果を得ることができる。 NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2024-02-28T04:33:20Z)
DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。 DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文参考訳（メタデータ） (2024-02-14T17:59:34Z)
The Expressive Power of Low-Rank Adaptation [11.371811534310078]
パラメータ効率のよい微調整法である低ランク適応は、微調整事前学習モデルの代表的な手法として登場した。本稿では,LoRAの表現力を理論的に解析することで,ギャップを埋める第一歩を踏み出す。トランスフォーマーネットワークでは、任意のモデルが、ランク=$(fractextembedding size2)$ LoRAで同じサイズのターゲットモデルに適応可能であることを示す。
論文参考訳（メタデータ） (2023-10-26T16:08:33Z)
LoRA-FA: Memory-efficient Low-rank Adaptation for Large Language Models Fine-tuning [19.08716369943138]
本稿では,性能劣化やコストのかかる再計算を伴わずに,メモリ効率のよい微調整法であるLoRA-FAを提案する。この結果から,LORA-FAは全パラメータの微調整やLORAと比較して,各タスクにまたがる精密調整の精度が常に高いことがわかった。
論文参考訳（メタデータ） (2023-08-07T05:12:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。