Fugu-MT 論文翻訳(概要): Stable-LoRA: Stabilizing Feature Learning of Low-Rank Adaptation

論文の概要: Stable-LoRA: Stabilizing Feature Learning of Low-Rank Adaptation

arxiv url: http://arxiv.org/abs/2603.05204v1
Date: Thu, 05 Mar 2026 14:15:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.264464
Title: Stable-LoRA: Stabilizing Feature Learning of Low-Rank Adaptation
Title（参考訳）: 安定ロラ:低ランク適応の安定的特徴学習
Authors: Yize Wu, Ke Gao, Ling Li, Yanjun Wu,
Abstract要約: Low-Rank Adaptation (LoRA) はLarge Langauge Modelを微調整するパラメータ効率の手法として広く採用されている。 Stable-LoRAは、LoRA特徴学習の安定性を動的に向上する重量収縮最適化戦略である。実験の結果、Stable-LoRAは様々なモデルやタスクで、他のベースラインを一貫して上回ります。
参考スコア（独自算出の注目度）: 14.315981403487266
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Low-Rank Adaptation (LoRA) is a widely adopted parameter-efficient method for fine-tuning Large Langauge Models. It updates the weight matrix as $W=W_0+sBA$, where $W_0$ is the original frozen weight, $s$ is a scaling factor and $A$,$B$ are trainable low-rank matrices. Despite its robust empirical effectiveness, the theoretical foundations of LoRA remain insufficiently understood, particularly with respect to feature learning stability. In this paper, we first establish that, LoRA can, in principle, naturally achieve and sustain stable feature learning (i.e., be self-stabilized) under appropriate hyper-parameters and initializations of $A$ and $B$. However, we also uncover a fundamental limitation that the necessary non-zero initialization of $A$ compromises self-stability, leading to suboptimal performances. To address this challenge, we propose Stable-LoRA, a weight-shrinkage optimization strategy that dynamically enhances stability of LoRA feature learning. By progressively shrinking $A$ during the earliest training steps, Stable-LoRA is both theoretically and empirically validated to effectively eliminate instability of LoRA feature learning while preserving the benefits of the non-zero start. Experiments show that Stable-LoRA consistently outperforms other baselines across diverse models and tasks, with no additional memory usage and only negligible computation overheads. The code is available at https://github.com/Yize-Wu/Stable-LoRA.
Abstract（参考訳）: Low-Rank Adaptation (LoRA) はLarge Langauge Modelを微調整するパラメータ効率の手法として広く採用されている。重量行列は$W=W_0+sBA$と更新され、$W_0$は元の凍結重量、$s$はスケーリング係数、$A$,B$はトレーニング可能な低ランク行列となる。その堅牢な経験的効果にもかかわらず、LoRAの理論的基礎は、特に特徴学習の安定性に関して十分に理解されていない。本稿では,LoRAが適切なハイパーパラメータと$A$および$B$の初期化の下で,安定な特徴学習(すなわち自己安定化)を自然に達成し,維持できることを最初に確立する。しかし、必要な$A$のゼロでない初期化が自己安定を損なうという根本的な制限も明らかとなり、最適以下の性能がもたらされる。この課題に対処するために,LoRA特徴学習の安定性を動的に向上する重み収縮最適化戦略であるStable-LoRAを提案する。初期のトレーニングステップで$A$を段階的に縮小することにより、Stable-LoRAは理論上も経験的にもLoRAの特徴学習の不安定性を効果的に排除し、非ゼロスタートの利点を保ちながら有効に検証される。実験の結果、Stable-LoRAは様々なモデルやタスクにまたがって他のベースラインを一貫して上回り、メモリ使用量は増加せず、計算オーバーヘッドも無視できることがわかった。コードはhttps://github.com/Yize-Wu/Stable-LoRAで公開されている。

関連論文リスト

Taming Momentum: Rethinking Optimizer States Through Low-Rank Approximation [85.89510825889168]
効率的な事前学習のための新しい低ランクシステムであるLoRA-Preを紹介する。 LoRA-Pre オンライン線形学習器内のコンパクトな低ランク部分空間に運動量行列を分解する。 Llama アーキテクチャファミリーのモデルを事前学習することで,LoRA-Preの有効性を実証的に検証する。
論文参考訳（メタデータ） (2026-02-27T18:57:06Z)
Faster Than SVD, Smarter Than SGD: The OPLoRA Alternating Update [50.36542772932594]
Low-Rank Adaptation (LoRA) は、凍結重量の上の低ランク更新を学習することで、大きなモデルを微調整する。ローランクプロジェクションによる完全なトレーニング(SVDLoRA)とLoRAファインチューニングの間にはまだギャップがあり、LoRAのステップをさらに改善できることを示している。
論文参考訳（メタデータ） (2025-09-24T10:32:50Z)
Don't Forget the Nonlinearity: Unlocking Activation Functions in Efficient Fine-Tuning [82.16625951603315]
NoRAは、固定活性化を学習可能な有理関数に置き換え、構造化された低ランク更新を数値化係数と分母係数に適用する。 CIFAR-10とCIFAR-100で訓練された視覚変換器では、NoRAはパラメータのわずか0.4%を更新しながら完全な微調整に適合または超過する。 NoRAは低次元機能部分空間への適応を制約し、暗黙的に更新の規模と方向を規則化する。
論文参考訳（メタデータ） (2025-09-16T16:47:03Z)
Riemannian Optimization for LoRA on the Stiefel Manifold [11.1808022633589]
大規模言語モデル(LLM)は、そのサイズのため、大幅な微調整の課題を呈している。幾何学的制約は、LoRAが効果的に微調整できる可能性を解き放つ鍵であることを示す。
論文参考訳（メタデータ） (2025-08-25T11:15:52Z)
Beyond Zero Initialization: Investigating the Impact of Non-Zero Initialization on LoRA Fine-Tuning Dynamics [23.84827135317107]
低ランク適応(LoRA)はパラメータ効率のよい微調整法として広く用いられている。標準的なLoRA層では、行列の1つである$A$または$B$はゼロであり、事前訓練されたモデルから微調整が始まります。
論文参考訳（メタデータ） (2025-05-29T07:33:03Z)
LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文参考訳（メタデータ） (2024-10-27T22:57:12Z)
CoRA: Optimizing Low-Rank Adaptation with Common Subspace of Large Language Models [7.108651381160281]
Low-Rank Adaptation (LoRA) 戦略は、微調整された大型モデルにおける効率と性能のバランスをとる。我々は、共有知識を活用してLoRAトレーニングを最適化するtextbfCoRAを提案する。実験の結果,最初のアプローチは,パラメータの半減よりも効率が良く,元のLoRAファインチューニングと同じ効果が得られることがわかった。
論文参考訳（メタデータ） (2024-08-31T12:48:27Z)
SBoRA: Low-Rank Adaptation with Regional Weight Updates [19.15481369459963]
本稿では,SBORA(Standard Basis LoRA)を提案する。 SBoRAはトレーニング可能なパラメータの数を半分に減らし、LoRAと同様のトレーニング可能なパラメータの数でランクを2倍にする。本研究は,LoraよりもSBoRA-FAの方が,常識推論や算術推論など,様々な微調整タスクにおいて優れていることを示す。
論文参考訳（メタデータ） (2024-07-07T15:37:13Z)
ResLoRA: Identity Residual Mapping in Low-Rank Adaption [96.59370314485074]
低ランク適応(LoRA)の改良フレームワークであるResLoRAを提案する。提案手法は,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,より少ないトレーニングステップでより良い結果を得ることができる。 NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2024-02-28T04:33:20Z)
DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。 DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文参考訳（メタデータ） (2024-02-14T17:59:34Z)
Chain of LoRA: Efficient Fine-tuning of Language Models via Residual Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-01-08T14:26:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。