論文の概要: Dual Low-Rank Adaptation for Continual Learning with Pre-Trained Models
- arxiv url: http://arxiv.org/abs/2411.00623v1
- Date: Fri, 01 Nov 2024 14:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:50:07.877990
- Title: Dual Low-Rank Adaptation for Continual Learning with Pre-Trained Models
- Title(参考訳): 事前学習モデルを用いた連続学習のための2次元低ランク適応
- Authors: Huancheng Chen, Jingtao Li, Nidham Gazagnadou, Weiming Zhuang, Chen Chen, Lingjuan Lyu,
- Abstract要約: 継続学習(CL)は、視覚変換器(ViT)が時間とともに新しいタスクを学習できるようにすることを目的としている。
破滅的な忘れ物は いまだに難題です
DualLoRA (Dual Low-Rank Adaptation) と呼ばれる新しいPEFT-CL法を提案する。
- 参考スコア(独自算出の注目度): 38.97142043836567
- License:
- Abstract: In the era of foundation models, we revisit continual learning~(CL), which aims to enable vision transformers (ViTs) to learn new tasks over time. However, as the scale of these models increases, catastrophic forgetting remains a persistent challenge, particularly in the presence of significant domain shifts across tasks. Recent studies highlight a crossover between CL techniques and parameter-efficient fine-tuning (PEFT), which focuses on fine-tuning only a small set of trainable parameters to adapt to downstream tasks, such as low-rank adaptation (LoRA). While LoRA achieves faster convergence and requires fewer trainable parameters, it has seldom been explored in the context of continual learning. To address this gap, we propose a novel PEFT-CL method called Dual Low-Rank Adaptation (DualLoRA), which introduces both an orthogonal LoRA adapter and a residual LoRA adapter parallel to pre-trained weights in each layer. These components are orchestrated by a dynamic memory mechanism to strike a balance between stability and plasticity. The orthogonal LoRA adapter's parameters are updated in an orthogonal subspace of previous tasks to mitigate catastrophic forgetting, while the residual LoRA adapter's parameters are updated in the residual subspace spanned by task-specific bases without interaction across tasks, offering complementary capabilities for fine-tuning new tasks. On ViT-based models, we demonstrate that DualLoRA offers significant advantages in accuracy, inference speed, and memory efficiency over existing CL methods across multiple benchmarks.
- Abstract(参考訳): 基礎モデルの時代には、視覚変換器(ViT)が時間とともに新しいタスクを学習できるようにすることを目的とした継続学習~(CL)を再考する。
しかしながら、これらのモデルの規模が大きくなるにつれて、特にタスク間で重要なドメインシフトが存在する場合、破滅的な忘れは永続的な課題である。
近年の研究では、低ランク適応(LoRA)のような下流タスクに適応するために、小さなトレーニング可能なパラメータセットのみを微調整することに焦点を当てた、CL技術とパラメータ効率のよい微調整(PEFT)の交叉を強調している。
LoRAはより高速な収束を実現し、トレーニング可能なパラメータを少なくするが、連続学習の文脈ではほとんど研究されていない。
このギャップに対処するために,直交LoRAアダプタと各層における事前学習重みに平行な残留LoRAアダプタの両方を導入する,Dual Low-Rank Adaptation (DualLoRA) と呼ばれる新しいPEFT-CL手法を提案する。
これらのコンポーネントは動的メモリ機構によって編成され、安定性と可塑性のバランスをとる。
直交するLoRAアダプタのパラメータは、それまでのタスクの直交部分空間で更新され、破滅的な忘れを軽減し、残りのLoRAアダプタのパラメータはタスク間の相互作用なしにタスク固有のベースによって分散された残留部分空間で更新され、新しいタスクを微調整するための補完機能を提供する。
ViTベースのモデルでは、DualLoRAは複数のベンチマークで既存のCLメソッドよりも精度、推論速度、メモリ効率において大きな利点があることを示した。
関連論文リスト
- Controlled Low-Rank Adaptation with Subspace Regularization for Continued Training on Large Language Models [13.56631686493347]
大規模言語モデル(LLM)は、自然言語処理において顕著な能力を示すが、新しいタスクを学ぶ際に破滅的な忘れに直面している。
本稿では,LoRA 構造上の部分空間正規化手法である Controlled LoRA (CLoRA) を提案する。
論文 参考訳(メタデータ) (2024-10-22T08:27:23Z) - Is Parameter Collision Hindering Continual Learning in LLMs? [50.57658782050275]
大規模言語モデル(LLM)は、複数のタスクを逐次学習する際に破滅的な忘れに悩まされることが多い。
CL問題に対処する上で,非衝突パラメータの構築はより重要な相互依存因子であることを示す。
低衝突速度を利用してLCMのCLを向上する単純なアプローチである非衝突低ランク適応(N-LoRA)を提案する。
論文 参考訳(メタデータ) (2024-10-14T05:54:11Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Tensor Train Low-rank Approximation (TT-LoRA): Democratizing AI with Accelerated LLMs [1.5503410315996757]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクで顕著な機能を示している。
しかし、LLMの複雑さはますます増大し、膨大な計算資源を必要としている。
本稿では,新しいパラメータ効率細調整(PEFT)手法であるTrain Low-Rank Approximation (TT-LoRA)を紹介する。
論文 参考訳(メタデータ) (2024-08-02T04:45:58Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - Training Neural Networks from Scratch with Parallel Low-Rank Adapters [46.764982726136054]
計算ノード間の複数の低ランクヘッドの並列トレーニングを実現するために設計された,新しい双方向最適化アルゴリズムである LoRA-the-Explorer (LTE) を導入する。
我々のアプローチには、様々なビジョンデータセットを用いたビジョントランスフォーマーの広範な実験が含まれており、LTEが標準の事前トレーニングと競合していることが示されている。
論文 参考訳(メタデータ) (2024-02-26T18:55:13Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。