論文の概要: Subspace Geometry Governs Catastrophic Forgetting in Low-Rank Adaptation
- arxiv url: http://arxiv.org/abs/2603.02224v1
- Date: Tue, 10 Feb 2026 22:45:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.087609
- Title: Subspace Geometry Governs Catastrophic Forgetting in Low-Rank Adaptation
- Title(参考訳): 低ランク適応における破滅的予測のサブスペース幾何
- Authors: Brady Steele,
- Abstract要約: Low-Rank Adaptation (LoRA) は、大規模な事前学習モデルに適応するためのパラメータ効率の高いアプローチとして登場した。
勾配部分空間相互作用のレンズを通して,LoRAにおける破滅的忘れを特徴付ける幾何学的理論を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-Rank Adaptation (LoRA) has emerged as a parameter-efficient approach for adapting large pre-trained models, yet its behavior under continual learning remains poorly understood. We present a geometric theory characterizing catastrophic forgetting in LoRA through the lens of gradient subspace interactions. Our central finding is that forgetting is governed by a simple geometric law: $\mathcal{F} = α(1 - \cos^2θ_{\min}) + β$, where $θ_{\min}$ is the minimum principal angle between task gradient subspaces. This formulation reveals an approximate rank-invariance property, at high subspace angles, forgetting becomes largely independent of the adapter rank (coefficient of variation $\approx 0.8\%$ in controlled synthetic settings; CV $\approx 10$-$19\%$ on real benchmarks, suggesting this is regime-dependent rather than absolute). We validate our theory on synthetic tasks ($r=0.994$ correlation), Split-CIFAR100 with ViT-LoRA, and sequential GLUE with RoBERTa-LoRA. Our analysis reconciles seemingly contradictory findings in the literature: we show that rank affects forgetting only when task subspaces are similar (low angle), while orthogonal methods like O-LoRA provide minimal benefit when natural orthogonality is already high. These insights provide principled guidance for continual learning with parameter-efficient fine-tuning.
- Abstract(参考訳): Low-Rank Adaptation (LoRA) は、大規模な事前学習モデルに適用するためのパラメータ効率の高いアプローチとして登場したが、継続学習におけるその振る舞いはいまだに理解されていない。
勾配部分空間相互作用のレンズを通して,LoRAにおける破滅的忘れを特徴付ける幾何学的理論を提案する。
我々の中心的な発見は、忘れることが単純な幾何学的法則によって支配されることである: $\mathcal{F} = α(1 - \cos^2θ_{\min}) + β$, ここで、$θ_{\min}$はタスク勾配部分空間の間の最小主角である。
この定式化は、高い部分空間の角度で近似的な階数不変性を明らかにするが、忘れることはアダプタの階数に大きく依存する(制御された合成設定では$\approx 0.8\%$、実際のベンチマークではCV $\approx 10$-19\%$)。
合成タスク(r=0.994$相関)、ViT-LoRAを用いたSplit-CIFAR100、RoBERTa-LoRAによる逐次GLUEについて検証した。
O-LoRAのような直交法は、自然直交性が既に高い場合に、最小限の利益をもたらす一方、タスク部分空間が類似している場合にのみ、ランクが忘れることに影響することを示す。
これらの知見は、パラメータ効率の良い微調整による連続学習のための原則化されたガイダンスを提供する。
関連論文リスト
- OPLoRA: Orthogonal Projection LoRA Prevents Catastrophic Forgetting during Parameter-Efficient Fine-Tuning [19.425615290786386]
Low-Rank Adaptation (LoRA)は、大規模言語モデルの効率的な微調整を可能にする。
LoRAは、学習した更新が支配的な特異な方向に干渉するとき、破滅的な忘れ込みに苦しむ。
我々はこの干渉を防止するために直交射影LORAを提案する。
論文 参考訳(メタデータ) (2025-10-14T21:35:57Z) - Scale-Invariant Regret Matching and Online Learning with Optimal Convergence: Bridging Theory and Practice in Zero-Sum Games [60.871651115241406]
ゼロサムゲームにおける理論と実践の間、何十年にもわたってかなりのシャズムが一階法によって浸食されてきた。
我々は、IREG-PRM$+$と呼ぶPRM$+$の新しいスケール不変かつパラメータフリーな変種を提案する。
ベンチマークゲームでは, PRM$+$と同等でありながら, 最適収束保証を$T-1/2$, $T-1$とする。
論文 参考訳(メタデータ) (2025-10-06T00:33:20Z) - StelLA: Subspace Learning in Low-rank Adaptation using Stiefel Manifold [51.93627542334909]
低ランク適応(LoRA)は大規模事前訓練モデルのパラメータ効率向上手法として広く採用されている。
3要素分解$U!SVtop$を使用するLoRAの幾何学的拡張を提案する。
論文 参考訳(メタデータ) (2025-10-02T11:59:13Z) - Sharp Generalization Bounds for Foundation Models with Asymmetric Randomized Low-Rank Adapters [7.687215328455751]
Low-Rank Adaptation (LoRA) は、基礎モデルのパラメータ効率の高い微調整技術として広く採用されている。
最近の研究は、LoRAの低ランク因子の初期化において固有の非対称性を強調している。
本稿では,凍結ランダム因子をもつ非対称ロラの包括的理論的特徴付けに焦点をあてる。
論文 参考訳(メタデータ) (2025-06-17T13:55:13Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - Computational Limits of Low-Rank Adaptation (LoRA) Fine-Tuning for Transformer Models [10.827800772359844]
微粒化複雑性理論を用いた変圧器モデルにおけるローランド適応(LoRA)の計算限界について検討する。
我々のキーとなる観察は、LoRA適応の勾配計算における低ランク分解の存在がアルゴリズムの高速化につながることである。
論文 参考訳(メタデータ) (2024-06-05T10:44:08Z) - Stochastic Linear Bandits with Protected Subspace [51.43660657268171]
線形目的関数を最適化するが、報酬は未知の部分空間にのみ得られる線形帯域問題の変種について検討する。
特に、各ラウンドでは、学習者は、目的または保護されたサブスペースを、アクションの選択とともにクエリするかどうかを選択する必要がある。
提案アルゴリズムはOFULの原理から導かれるもので,保護された空間を推定するためにクエリのいくつかを利用する。
論文 参考訳(メタデータ) (2020-11-02T14:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。