論文の概要: Dual Low-Rank Adaptation for Continual Learning with Pre-Trained Models
- arxiv url: http://arxiv.org/abs/2411.00623v1
- Date: Fri, 01 Nov 2024 14:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:50:07.877990
- Title: Dual Low-Rank Adaptation for Continual Learning with Pre-Trained Models
- Title(参考訳): 事前学習モデルを用いた連続学習のための2次元低ランク適応
- Authors: Huancheng Chen, Jingtao Li, Nidham Gazagnadou, Weiming Zhuang, Chen Chen, Lingjuan Lyu,
- Abstract要約: 継続学習(CL)は、視覚変換器(ViT)が時間とともに新しいタスクを学習できるようにすることを目的としている。
破滅的な忘れ物は いまだに難題です
DualLoRA (Dual Low-Rank Adaptation) と呼ばれる新しいPEFT-CL法を提案する。
- 参考スコア(独自算出の注目度): 38.97142043836567
- License:
- Abstract: In the era of foundation models, we revisit continual learning~(CL), which aims to enable vision transformers (ViTs) to learn new tasks over time. However, as the scale of these models increases, catastrophic forgetting remains a persistent challenge, particularly in the presence of significant domain shifts across tasks. Recent studies highlight a crossover between CL techniques and parameter-efficient fine-tuning (PEFT), which focuses on fine-tuning only a small set of trainable parameters to adapt to downstream tasks, such as low-rank adaptation (LoRA). While LoRA achieves faster convergence and requires fewer trainable parameters, it has seldom been explored in the context of continual learning. To address this gap, we propose a novel PEFT-CL method called Dual Low-Rank Adaptation (DualLoRA), which introduces both an orthogonal LoRA adapter and a residual LoRA adapter parallel to pre-trained weights in each layer. These components are orchestrated by a dynamic memory mechanism to strike a balance between stability and plasticity. The orthogonal LoRA adapter's parameters are updated in an orthogonal subspace of previous tasks to mitigate catastrophic forgetting, while the residual LoRA adapter's parameters are updated in the residual subspace spanned by task-specific bases without interaction across tasks, offering complementary capabilities for fine-tuning new tasks. On ViT-based models, we demonstrate that DualLoRA offers significant advantages in accuracy, inference speed, and memory efficiency over existing CL methods across multiple benchmarks.
- Abstract(参考訳): 基礎モデルの時代には、視覚変換器(ViT)が時間とともに新しいタスクを学習できるようにすることを目的とした継続学習~(CL)を再考する。
しかしながら、これらのモデルの規模が大きくなるにつれて、特にタスク間で重要なドメインシフトが存在する場合、破滅的な忘れは永続的な課題である。
近年の研究では、低ランク適応(LoRA)のような下流タスクに適応するために、小さなトレーニング可能なパラメータセットのみを微調整することに焦点を当てた、CL技術とパラメータ効率のよい微調整(PEFT)の交叉を強調している。
LoRAはより高速な収束を実現し、トレーニング可能なパラメータを少なくするが、連続学習の文脈ではほとんど研究されていない。
このギャップに対処するために,直交LoRAアダプタと各層における事前学習重みに平行な残留LoRAアダプタの両方を導入する,Dual Low-Rank Adaptation (DualLoRA) と呼ばれる新しいPEFT-CL手法を提案する。
これらのコンポーネントは動的メモリ機構によって編成され、安定性と可塑性のバランスをとる。
直交するLoRAアダプタのパラメータは、それまでのタスクの直交部分空間で更新され、破滅的な忘れを軽減し、残りのLoRAアダプタのパラメータはタスク間の相互作用なしにタスク固有のベースによって分散された残留部分空間で更新され、新しいタスクを微調整するための補完機能を提供する。
ViTベースのモデルでは、DualLoRAは複数のベンチマークで既存のCLメソッドよりも精度、推論速度、メモリ効率において大きな利点があることを示した。
関連論文リスト
- S-LoRA: Scalable Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、逐次的なタスクに事前訓練されたモデルのパワーを活用するための有望なアプローチとして現れてきた。
本稿では,LRAパラメータの方向と大きさの学習を段階的に分離する,CL(特にクラスインクリメンタルラーニング)のためのスケーラブル低ランク適応(S-LoRA)手法を提案する。
我々の理論的および実証的な分析により、S-LoRAは重なり合う低損失領域に収束する低損失軌道を辿る傾向にあり、CLの安定性と塑性のトレードオフは良好であることが示された。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - Unlocking Tuning-Free Few-Shot Adaptability in Visual Foundation Models by Recycling Pre-Tuned LoRAs [76.40876036912537]
大規模言語モデル(LLM)は、微調整を必要とせず、強力な少数ショット適応性を示す。
現在のVisual Foundation Models (VFM) は十分なチューニングデータを持つ明示的な微調整を必要とする。
そこで我々は, メタ学習目的の多様なLoRAからメタLoRAを蒸留するフレームワークであるLoRA Recycleを提案する。
論文 参考訳(メタデータ) (2024-12-03T07:25:30Z) - Controlled Low-Rank Adaptation with Subspace Regularization for Continued Training on Large Language Models [13.56631686493347]
大規模言語モデル(LLM)は、自然言語処理において顕著な能力を示すが、新しいタスクを学ぶ際に破滅的な忘れに直面している。
本稿では,LoRA 構造上の部分空間正規化手法である Controlled LoRA (CLoRA) を提案する。
論文 参考訳(メタデータ) (2024-10-22T08:27:23Z) - Is Parameter Collision Hindering Continual Learning in LLMs? [50.57658782050275]
大規模言語モデル(LLM)は、複数のタスクを逐次学習する際に破滅的な忘れに悩まされることが多い。
CL問題に対処する上で,非衝突パラメータの構築はより重要な相互依存因子であることを示す。
低衝突速度を利用してLCMのCLを向上する単純なアプローチである非衝突低ランク適応(N-LoRA)を提案する。
論文 参考訳(メタデータ) (2024-10-14T05:54:11Z) - Tensor Train Low-rank Approximation (TT-LoRA): Democratizing AI with Accelerated LLMs [1.5503410315996757]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクで顕著な機能を示している。
しかし、LLMの複雑さはますます増大し、膨大な計算資源を必要としている。
本稿では,新しいパラメータ効率細調整(PEFT)手法であるTrain Low-Rank Approximation (TT-LoRA)を紹介する。
論文 参考訳(メタデータ) (2024-08-02T04:45:58Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。