論文の概要: LoRA-MGPO: Mitigating Double Descent in Low-Rank Adaptation via Momentum-Guided Perturbation Optimization
- arxiv url: http://arxiv.org/abs/2502.14538v2
- Date: Thu, 29 May 2025 03:24:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:33.298553
- Title: LoRA-MGPO: Mitigating Double Descent in Low-Rank Adaptation via Momentum-Guided Perturbation Optimization
- Title(参考訳): LoRA-MGPO: Momentum-Guided Perturbation Optimization による低域適応における二重発振の軽減
- Authors: Yupeng Chang, Chenlu Guo, Yi Chang, Yuan Wu,
- Abstract要約: Low-Rank Adaptation (LoRA) 法は、トレーニング損失の増加に伴い「二重降下」を示す。
LoRA-MGPO は Momentum-Guided Perturbation Optimization (MGPO) を取り入れた新しい LoRA ベースのフレームワークである
自然言語理解と生成ベンチマークの実験は、LoRA-MGPOがLoRAと最先端PEFT法より優れていることを示した。
- 参考スコア(独自算出の注目度): 12.504723188498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) methods, such as Low-Rank Adaptation (LoRA), enable efficient adaptation of large language models (LLMs) via low-rank matrix optimization with frozen weights. However, LoRA typically exhibits "double descent" in training loss as rank increases, characterized by a three-phase dynamics: initial convergence, transient divergence, and eventual stabilization. This non-monotonic behavior delays convergence and impairs generalization through unstable gradients and attraction to sharp minima. To address these challenges, we propose LoRA-MGPO, a novel LoRA-based framework incorporating Momentum-Guided Perturbation Optimization (MGPO). First, MGPO eliminates Sharpness-Aware Minimization (SAM)'s dual gradient computations by reusing momentum vectors from optimizer states to guide perturbation directions. This retains SAM's training stability and flat minima preference with maintained efficiency. Second, MGPO incorporates adaptive perturbation normalization, scaling perturbation intensity via exponential moving average (EMA)-smoothed gradient magnitudes. Experiments on natural language understanding and generation benchmarks demonstrate that LoRA-MGPO outperforms LoRA and state-of-the-art PEFT methods. Further analysis confirms its ability to stabilize training and reduce sharp minima attraction, with smoother loss curves and improved convergence behavior. The code is available at https://github.com/llm172/LoRA-MGPO
- Abstract(参考訳): Low-Rank Adaptation (LoRA) のようなパラメータ効率のよい微細チューニング(PEFT)手法は、凍結重み付き低ランク行列最適化による大規模言語モデル(LLM)の効率的な適応を可能にする。
しかし、LoRAは通常、ランクの上昇に伴ってトレーニング損失の「二重降下」を示し、初期収束、過渡発散、最終的な安定化という3段階のダイナミクスが特徴である。
この非単調な振舞いは収束を遅らせ、不安定な勾配と鋭い極小へのアトラクションを通じて一般化を損なう。
これらの課題に対処するために,Momentum-Guided Perturbation Optimization (MGPO)を取り入れた新しいLoRAベースのフレームワークであるLoRA-MGPOを提案する。
まず、MGPOは、運動量ベクトルをオプティマイザ状態から再利用して摂動方向を案内することにより、シャープネス・アウェア・最小化(SAM)の双対勾配計算を除去する。
これはSAMのトレーニングの安定性と平らなミニマの好みを維持し、効率を保っている。
第二に、MGPOは適応摂動正規化、指数移動平均(EMA)平滑勾配等級による摂動強度のスケーリングを取り入れている。
自然言語理解と生成ベンチマークの実験は、LoRA-MGPOがLoRAと最先端PEFT法より優れていることを示した。
さらなる分析により、トレーニングを安定させ、よりスムーズな損失曲線と収束挙動を改善したシャープなミニマアトラクションを減少させる能力が確認されている。
コードはhttps://github.com/llm172/LoRA-MGPOで公開されている。
関連論文リスト
- Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment [20.382810396966473]
Low-Rank Adaptation (LoRA)は、Large Language Models (LLM) のためのパラメータ効率の良い微調整を可能にする
現在の手法は静的特異値分解サブセットを初期化することでLoRAを最適化し、事前学習された知識を最適に活用する。
我々はLunderlineoRunderlineA Mixture-of-Experunderlinet (GOAT)を提案する。
GOATはSVD構造化MoEを用いて関連する事前情報を統合し、理論スケーリング係数を導出して最適化を完全微調整MoEと整合させる
論文 参考訳(メタデータ) (2025-02-24T06:48:13Z) - BeamLoRA: Beam-Constraint Low-Rank Adaptation [51.52097743781401]
Low-Rank Adaptation (LoRA) はパラメータ効率の良い微調整法として広く採用されている。
本研究では,各LoRAモジュールを,各ランクが潜在的サブソリューションに対応するビームとして概念化するビームロラを提案する。
論文 参考訳(メタデータ) (2025-02-19T10:33:22Z) - LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Flat-LoRA: Low-Rank Adaption over a Flat Loss Landscape [52.98187034726091]
Low-Rank Adaptation (LoRA) は低ランク行列のみを最適化することでモデルを微調整する効率的な方法である。
ロラ空間に平坦に見える解は、全パラメータ空間に鋭い方向が存在し、一般化性能を損なう可能性がある。
フルパラメータ空間の平坦領域に位置する低ランク適応を求める効率的なアプローチであるFlat-LoRAを提案する。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - BA-LoRA: Bias-Alleviating Low-Rank Adaptation to Mitigate Catastrophic Inheritance in Large Language Models [13.660511750245245]
この研究は、バイアス継承に対抗するために設計された新しいPEFT法であるBias-Alleviating Low-Rank Adaptation (BA-LoRA)を導入している。
BA-LoRAは、(1)整合正則化器、(2)多様性正則化器、(3)特異値分解正則化器の3つの異なる正則化項を含む。
その結果、BA-LoRAはLoRAとその最先端の変種よりも優れていた。
論文 参考訳(メタデータ) (2024-08-08T16:13:26Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。