論文の概要: LoRA-MGPO: Mitigating Double Descent in Low-Rank Adaptation via Momentum-Guided Perturbation Optimization
- arxiv url: http://arxiv.org/abs/2502.14538v3
- Date: Fri, 26 Sep 2025 03:04:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 16:35:18.812112
- Title: LoRA-MGPO: Mitigating Double Descent in Low-Rank Adaptation via Momentum-Guided Perturbation Optimization
- Title(参考訳): LoRA-MGPO: Momentum-Guided Perturbation Optimization による低域適応における二重発振の軽減
- Authors: Yupeng Chang, Chenlu Guo, Yi Chang, Yuan Wu,
- Abstract要約: LoRA-MGPO は Momentum-Guided Perurbation Optimization (MGPO) を組み込んだフレームワークである。
MGPOは勾配状態から運動量ベクトルを誘導する運動力学を安定化させる。
実験の結果, LoRA-MGPO は LoRA や他のPEFT 法よりも優れた性能を発揮することがわかった。
- 参考スコア(独自算出の注目度): 16.360816770124874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning (PEFT), particularly Low-Rank Adaptation (LoRA), adapts large language models (LLMs) by training only a small fraction of parameters. However, as the rank of the low-rank matrices used for adaptation increases, LoRA often exhibits an unstable "double descent" phenomenon, characterized by transient divergence in the training loss, which delays convergence and impairs generalization by causing instability due to the attraction to sharp local minima. To address this, we introduce LoRA-MGPO, a framework that incorporates Momentum-Guided Perturbation Optimization (MGPO). MGPO stabilizes training dynamics by mitigating the double descent phenomenon and guiding weight perturbations using momentum vectors from the optimizer's state, thus avoiding dual gradient computations. Additionally, an adaptive normalization scheme scales the magnitude of perturbations based on an exponential moving average (EMA) of gradient norms, further enhancing stability. While EMA controls the magnitude of the perturbations, MGPO guides their direction, ensuring a more stable optimization trajectory. Experiments on a suite of natural language understanding and generation benchmarks show that LoRA-MGPO consistently achieves superior performance over LoRA and other PEFT methods. The analysis indicates that LoRA-MGPO leads to smoother loss curves, faster convergence, and improved generalization by stabilizing the training process and mitigating the attraction to sharp minima.
- Abstract(参考訳): パラメータ効率のよい微調整(PEFT)、特にローランド適応(LoRA)は、少数のパラメータのみをトレーニングすることで、大きな言語モデル(LLM)に適応する。
しかし、適応に使用される低ランク行列のランクが上昇するにつれて、LoRAはしばしば不安定な「二重降下」現象を示し、訓練損失の過渡的なばらつきによって特徴付けられる。
そこで本研究では,Momentum-Guided Perturbation Optimization (MGPO) を組み込んだフレームワークであるLoRA-MGPOを紹介する。
MGPOは、双発現象を緩和し、オプティマイザ状態からの運動量ベクトルを用いた重み摂動を誘導することにより、トレーニングダイナミクスを安定化し、二重勾配計算を避ける。
さらに、適応正規化スキームは勾配ノルムの指数移動平均(EMA)に基づいて摂動の大きさをスケールし、安定性をさらに向上する。
EMAは摂動の大きさを制御するが、MGPOはその方向を案内し、より安定した最適化軌道を確実にする。
自然言語理解および生成ベンチマークの一連の実験により、LoRA-MGPOは、LoRAや他のPEFTメソッドよりも一貫して優れた性能を発揮することが示された。
解析の結果,LoRA-MGPOはよりスムーズな損失曲線を導出し,より早く収束し,トレーニングプロセスを安定化し,アトラクションを鋭いミニマに緩和することで一般化した。
関連論文リスト
- Beyond Low-Rank Tuning: Model Prior-Guided Rank Allocation for Effective Transfer in Low-Data and Large-Gap Regimes [9.4848188271008]
Low-Rank Adaptation (LoRA) は、完全に微調整された基礎モデルに匹敵する性能を維持しながら、計算コストを削減できることが証明されている。
現在の適応LoRA法は、ランクを動的に拡張または選択的に割り当てることで、この制限を克服しようとする。
本稿では, 既訓練重量行列の安定なランクを, 階層的ランクアロケーションの自然な先行として活用する新しいフレームワークSR-LoRAを紹介する。
論文 参考訳(メタデータ) (2025-06-30T23:54:23Z) - RefLoRA: Refactored Low-Rank Adaptation for Efficient Fine-Tuning of Large Models [39.656014609027494]
Low-Rank Adaptation (LoRA)は、事前訓練された重み行列の低次元部分空間を更新することにより、微調整された大型モデルの計算およびメモリオーバーヘッドを下げる。
本稿では、損失の上限を最小化するステップ毎の最適低ランク因子化について述べる。
結果として得られた低ランク適応(RefLoRA)法は、一貫した重量とバランスの取れた重量の更新とともに、より平坦な損失景観を促進する。
論文 参考訳(メタデータ) (2025-05-24T21:33:16Z) - SRLoRA: Subspace Recomposition in Low-Rank Adaptation via Importance-Based Fusion and Reinitialization [2.594346658179846]
Low-Rank Adaptation (LoRA)は、固定された低ランク部分空間への更新を制約する。
本稿では,低ランク適応(SRLoRA)における部分空間再構成について,重要性に基づく融合と再初期化を用いて紹介する。
SRLoRAは標準のLoRAよりも高速な収束と精度の向上を実現している。
論文 参考訳(メタデータ) (2025-05-18T14:12:40Z) - DeLoRA: Decoupling Angles and Strength in Low-rank Adaptation [44.99833362998488]
Decoupled Low-rank Adaptation (DeLoRA)は学習可能な低ランク行列を正規化しスケールする新しい微調整法である。
DeLoRAは競合するPEFT法の性能に適合し,強靭性を示す。
論文 参考訳(メタデータ) (2025-03-23T22:00:56Z) - Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment [20.382810396966473]
Low-Rank Adaptation (LoRA)は、Large Language Models (LLM) のためのパラメータ効率の良い微調整を可能にする
現在の手法は静的特異値分解サブセットを初期化することでLoRAを最適化し、事前学習された知識を最適に活用する。
我々はLunderlineoRunderlineA Mixture-of-Experunderlinet (GOAT)を提案する。
GOATはSVD構造化MoEを用いて関連する事前情報を統合し、理論スケーリング係数を導出して最適化を完全微調整MoEと整合させる
論文 参考訳(メタデータ) (2025-02-24T06:48:13Z) - BeamLoRA: Beam-Constraint Low-Rank Adaptation [51.52097743781401]
Low-Rank Adaptation (LoRA) はパラメータ効率の良い微調整法として広く採用されている。
本研究では,各LoRAモジュールを,各ランクが潜在的サブソリューションに対応するビームとして概念化するビームロラを提案する。
論文 参考訳(メタデータ) (2025-02-19T10:33:22Z) - LoRA vs Full Fine-tuning: An Illusion of Equivalence [76.11938177294178]
我々は,Low-Rank Adaptation (LoRA) とフルファインタニングによる事前学習モデルについて検討する。
特異値分解が全く異なる構造を示すLoRAおよび完全微調整収量行列が得られた。
我々は、LoRAが完全な微調整を忘れてはならないという発見を拡張し、その忘れ物は侵入者次元に大きく局所化されていることを発見した。
論文 参考訳(メタデータ) (2024-10-28T17:14:01Z) - LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - Flat-LoRA: Low-Rank Adaption over a Flat Loss Landscape [52.98187034726091]
Low-Rank Adaptation (LoRA) は低ランク行列のみを最適化することでモデルを微調整する効率的な方法である。
ロラ空間に平坦に見える解は、全パラメータ空間に鋭い方向が存在し、一般化性能を損なう可能性がある。
フルパラメータ空間の平坦領域に位置する低ランク適応を求める効率的なアプローチであるFlat-LoRAを提案する。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - BA-LoRA: Bias-Alleviating Low-Rank Adaptation to Mitigate Catastrophic Inheritance in Large Language Models [13.660511750245245]
この研究は、バイアス継承に対抗するために設計された新しいPEFT法であるBias-Alleviating Low-Rank Adaptation (BA-LoRA)を導入している。
BA-LoRAは、(1)整合正則化器、(2)多様性正則化器、(3)特異値分解正則化器の3つの異なる正則化項を含む。
その結果、BA-LoRAはLoRAとその最先端の変種よりも優れていた。
論文 参考訳(メタデータ) (2024-08-08T16:13:26Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。