論文の概要: Low-Rank Adapters Initialization via Gradient Surgery for Continual Learning
- arxiv url: http://arxiv.org/abs/2605.12752v1
- Date: Tue, 12 May 2026 21:06:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.68832
- Title: Low-Rank Adapters Initialization via Gradient Surgery for Continual Learning
- Title(参考訳): 連続学習のためのグラディエント手術による低域適応器の初期化
- Authors: Joana Pasquali, Ramiro N. Barros, Arthur S. Bianchessi, Vinícius Conte Turani, João Vitor Boer Abitante, Rafaela Cappelari Ravazio, Christian Mattjie, Otávio Parraga, Lucas S. Kupssinskü, Rodrigo C. Barros,
- Abstract要約: 連続学習におけるLoRAアダプタの初期化であるSLICEを提案する。
バニラLoRA、LoRA-GA、LoRAMと比較すると、SLICEは安定性と可塑性のトレードオフを継続的に達成し、平均パフォーマンス、最終的なパフォーマンス、および測定基準を改善している。
- 参考スコア(独自算出の注目度): 1.132502620877057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LoRA is widely adopted for continual fine-tuning of Large Language Models due to its parameter efficiency, modularity across tasks, and compatibility with replay strategies. However, LoRA-based continual learning remains vulnerable to catastrophic forgetting, whose severity depends on how successive task gradients interact: when consecutive task gradients conflict, standard adapter initializations channel updates into subspaces that overwrite previously learned directions. We propose SLICE, a gradient-surgery-based initialization for LoRA adapters in continual learning. SLICE accumulates gradients from both the current task and a replay buffer of prior tasks, reconciles them through a projection operator, and decomposes the result via truncated SVD to initialize the adapter weights. We evaluate SLICE on the TRACE benchmark and sequences of Super-NI tasks, including a set of adversarial Super-NI sequences that we construct by mining task pairs with maximally opposing gradients. Compared to vanilla LoRA, LoRA-GA, and LoRAM, SLICE consistently achieves a better stability-plasticity trade-off, improving Average Performance, Final Performance and Forgetting metrics while preserving General Performance and In Context Performance across both standard and adversarial continual learning sequences.
- Abstract(参考訳): LoRAはパラメータ効率、タスク間のモジュラリティ、リプレイ戦略との互換性などにより、大規模言語モデルの継続的な微調整に広く採用されている。
しかし、LoRAベースの連続学習は依然として破滅的な忘れ方に弱いままであり、その重大さは連続的なタスク勾配がどう相互作用するかに依存している: 連続的なタスク勾配が矛盾する場合、標準アダプタはチャネルの更新を、以前に学習した方向を上書きしたサブスペースに初期化する。
連続学習におけるLoRAアダプタの初期化であるSLICEを提案する。
SLICEは、現在のタスクと以前のタスクのリプレイバッファの両方からの勾配を蓄積し、プロジェクション演算子を通してそれらを調整し、トランケートされたSVDを介して結果を分解し、アダプタの重み付けを初期化する。
TRACEベンチマークによるSLICEと,最大対向勾配のタスクペアをマイニングすることで構築した,超NIタスクの系列について評価した。
バニラLoRA、LoRA-GA、LoRAMと比較すると、SLICEは安定性と可塑性のトレードオフを一貫して達成し、平均パフォーマンス、最終的なパフォーマンス、メトリクスの獲得を改善しながら、一般的なパフォーマンスとIn Contextのパフォーマンスを標準および逆連続学習シーケンスの両方で維持する。
関連論文リスト
- Task-Driven Subspace Decomposition for Knowledge Sharing and Isolation in LoRA-based Continual Learning [82.30237756328596]
Low-Rank Adaptation (LoRA) は継続学習 (CL) において注目を集めている。
いくつかのLoRAベースのCLメソッドは、更新スペースを分離することでタスク間の干渉を減らす。
LoDAは、一般的なタスク固有のLoRAサブスペースを構築するために、タスク駆動の分解を実行する。
論文 参考訳(メタデータ) (2026-02-27T02:31:00Z) - Decomposing and Composing: Towards Efficient Vision-Language Continual Learning via Rank-1 Expert Pool in a Single LoRA [50.97792275353563]
単一低ランク適応 (LoRA) モジュールを分解可能な Rank-1 エキスパートプールとして再構成する,新しいフレームワークを提案する。
本手法では,このエキスパートプールから[Guided]トークンのセマンティクスに導かれて,疎結合でタスク固有の更新を動的に作成することを学ぶ。
論文 参考訳(メタデータ) (2026-01-30T10:54:51Z) - Resolving Conflicts in Lifelong Learning via Aligning Updates in Subspaces [12.630494786258842]
Low-Rank Adaptation (LoRA)は効果的な継続的学習を可能にするが、しばしば破滅的な忘れ込みに悩まされる。
そこで我々は,PS-LoRAを提案する。PS-LoRAは最適化サブ空間内で更新を調整することで競合を解決するためのフレームワークである。
提案手法では,先行知識との整合性を確保するために,矛盾する方向と大小偏差をペナルティ化する二重正則化手法を用いている。
論文 参考訳(メタデータ) (2025-11-28T15:34:36Z) - LoRA in LoRA: Towards Parameter-Efficient Architecture Expansion for Continual Visual Instruction Tuning [12.165720711684758]
MLLMにおけるCVITに適した,高効率なアーキテクチャ拡張手法LiLoRAを紹介する。
LiLoRAはタスク間でLoRA行列Aを共有して冗長性を低減し、タスク固有のパラメータを最小化するために行列Bに追加の低ランク分解を適用し、コサイン規則化された安定性損失を組み込んで時間の経過とともに一貫性を維持する。
実験の結果,LiLoRAは逐次的タスク学習において一貫した性能を実現し,既存の手法に比べてパラメータ効率を著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-08-08T10:32:38Z) - SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - Adaptive Rank, Reduced Forgetting: Knowledge Retention in Continual Learning Vision-Language Models with Dynamic Rank-Selective LoRA [26.079123341965687]
低ランク学習を研究し,LoRAのランクや配置が学習や忘れにどのように影響するかを分析した。
上位のLoRAはタスク学習(塑性)を改善するが、下位のLoRAは安定性を高めるが適応を制限する。
そこで我々は,適応的に最適化されたLoRAアダプタを用いてPTMを継続的に更新する連続動的ランク選択LoRA(CoDyRA)を提案する。
論文 参考訳(メタデータ) (2024-12-01T23:41:42Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。