Janus-LoRA: A Balanced Low-Rank Adaptation for Continual Learning
Abstractの概要
Janus-LoRAは、パラメータ更新と特徴幾何学の2つのレベルから安定性と可塑性のトレードオフを狙う、LoRA上に構築された継続学習フレームワークである。本論文は、標準的なLoRAの最適化では低ランクの因子が独立して更新されるため、以前学習したタスク部分空間に対する意図した直交性が損なわれ、干渉や忘却が再発する可能性があると主張している。これに対処するため、この手法は、射影された安全な全重み更新を修正されたLoRA因子の更新にマッピングする勾配修正(Gradient Rectification)と、過去のデータを保存せずに保護された過去の部分空間を追跡するオンライン推定(Online Estimation)プロセスを組み合わせている。さらに、新しい特徴空間への侵食を減らしつつ新タスクへの適応性を保持することを目的として、新しい特徴を過去のクラスプロトタイプから遠ざける分離マージン損失(Decoupled Margin Loss)を追加している。
新規性
本論文の主な新規性は、LoRAベースの継続学習における破滅的忘却が、直交性制約の不足だけでなく、望ましい安全な全重み更新と、独立して最適化されたLoRA因子によって生じる実際の複合更新との間の内部的な不一致から生じるという診断にある。オンライン部分空間推定および特徴レベルの分離マージン損失と組み合わせた閉形式の勾配修正ステップを導入することで、パラメータレベルの直交性と特徴レベルの分離の両方を強制している。
成果
報告されたクラス増分ベンチマーク(ImageNet-R、CIFAR-100、ImageNet-100、DomainNetを含む)全体において、Janus-LoRAは著者の統一実装プロトコル下で比較手法の中で最高のACC(精度)およびMAA(平均精度)値を達成している。20タスクのImageNet-Rでは、ACC 71.57およびMAA 77.11を報告し、InfLoRAによる次点のMAA 76.24を上回り、CIFAR-100ではACC 88.68およびMAA 92.58を報告した。また、ImageNet-Rでのアブレーション結果は、オンライン推定と勾配修正の組み合わせが忘却を大幅に減らす(アブレーション表の最高BWT -4.43)一方で、フルモデルが最も高い全体的なACCとMAAをもたらすことを示している。
論文の注目点
- Janus-LoRAは、オンライン推定、勾配修正、分離マージン損失の3つのコンポーネントを組み合わせることで、過去のデータを保持しない(exemplar-freeな)継続学習において、忘却の防止と新タスクの学習のバランスを取っている。
- 本手法は、低ランク因子の独立した更新によって、結果として生じる全重み更新が事前知識を保護するための直交する安全な方向から逸脱してしまうという、標準的LoRAの特有の失敗モードを動機としている。
- 実証結果とアブレーションにより、パラメータレベルの修正が安定性の中心である一方、特徴レベルのマージン損失は新しい表現のためにより分離された領域を作成することで全体の精度を向上させることが示されている。