論文の概要: Little By Little: Continual Learning via Self-Activated Sparse Mixture-of-Rank Adaptive Learning
- arxiv url: http://arxiv.org/abs/2506.21035v1
- Date: Thu, 26 Jun 2025 06:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.997566
- Title: Little By Little: Continual Learning via Self-Activated Sparse Mixture-of-Rank Adaptive Learning
- Title(参考訳): Little By Little: 自己活性化スパース混合学習による継続的な学習
- Authors: Haodong Lu, Chongyang Zhao, Jason Xue, Lina Yao, Kristen Moore, Dong Gong,
- Abstract要約: 大規模な事前学習モデルによる継続的な学習は、破滅的な忘れ込みとタスクの干渉によって挑戦される。
既存のLoRAベースのMixture-of-Experts (MoE)は、タスク固有のアダプタを割り当て、凍結することで、忘れを緩和する。
CLに対する自己アクティベートとスパースなランクアクティベーションを備えたMixture-of-Rank Adaptive LearningアプローチであるMoRAを提案する。
- 参考スコア(独自算出の注目度): 19.982853959240497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning (CL) with large pre-trained models is challenged by catastrophic forgetting and task interference. Existing LoRA-based Mixture-of-Experts (MoE) approaches mitigate forgetting by assigning and freezing task-specific adapters, but suffer from interference, redundancy, and ambiguous routing due to coarse adapter-level selection. However, this design introduces three key challenges: 1) Interference: Activating full LoRA experts per input leads to subspace interference and prevents selective reuse of useful components across tasks. 2) Redundancy: Newly added experts often duplicate or contradict existing knowledge due to unnecessary activation of unrelated ranks and insufficient reuse of relevant ones. 3) Ambiguity: Overlapping features across tasks confuse the router, resulting in unstable expert assignments. As more experts accumulate, earlier task routing degrades, accelerating forgetting. We propose MoRA, a Mixture-of-Rank Adaptive learning approach with self-activated and sparse rank activation for CL. Unlike mixing multiple low-rank matrices, MoRA decomposes each rank-r update into r rank-1 components, each treated as an independent expert, enabling fine-grained mixture of rank-1 expert utilization while mitigating interference and redundancy. To avoid ambiguous routing, we propose that each rank-1 expert can infer its own relevance via intermediate activations. Coupled with our proposed rank pruning and activation budgets, MoRA adaptively selects a sparse mixture of ranks per input. We validate MoRA on continual learning tasks with CLIP and large language models (LLMs), analyzing both in-domain learning and out-of-domain forgetting/generalization during fine-tuning. MoRA shows significant effectiveness on enhancing CL with PTMs, and improving generalization while mitigating forgetting.
- Abstract(参考訳): 大規模な事前学習モデルを持つ連続学習(CL)は、破滅的な忘れ込みとタスク干渉によって挑戦される。
既存のLoRAベースのMixture-of-Experts (MoE)は、タスク固有のアダプタを割り当て、凍結することで忘れを軽減しているが、粗いアダプタレベルの選択による干渉、冗長性、あいまいなルーティングに悩まされている。
しかし、この設計には3つの重要な課題が伴う。
1) 干渉: 入力毎に完全なLoRA専門家を活性化すると、サブスペースの干渉が発生し、タスク間で有用なコンポーネントを選択的に再利用するのを防ぐ。
2) 冗長性: 関係のない階級の不要な活性化と関係のない階級の再利用が不十分なため、新たな専門家が既存の知識を重複させたり、矛盾させたりすることも多い。
3) あいまいさ: タスク間で重複する機能がルータを混乱させ、不安定な専門家の割り当てをもたらす。
より多くの専門家が集まるにつれて、以前のタスクルーティングは劣化し、忘れることが加速する。
CLに対する自己アクティベートとスパースなランクアクティベーションを備えたMixture-of-Rank Adaptive LearningアプローチであるMoRAを提案する。
複数の低ランク行列を混合するのとは異なり、MoRAは各ランク-r更新をrランク-1コンポーネントに分解し、それぞれが独立の専門家として扱われ、干渉と冗長性を緩和しながら、ランク-1エキスパート利用のきめ細かい混合を可能にする。
あいまいなルーティングを避けるため,各ランク1の専門家は,中間的アクティベーションを通じて,それぞれの関係を推測できることを示す。
提案したランクプルーニングとアクティベーション予算と組み合わせて、MoRAは入力毎にスパースなランクの混合を適応的に選択する。
我々は,CLIPと大規模言語モデル(LLM)を用いた連続学習タスクにおけるMoRAの有効性を検証し,微調整中のドメイン内学習とドメイン外忘れ/一般化の両方を分析した。
MoRA は PTM による CL の増強に有意な効果を示した。
関連論文リスト
- LoRASculpt: Sculpting LoRA for Harmonizing General and Specialized Knowledge in Multimodal Large Language Models [61.96237184081951]
Low-Rank Adaptation (LoRA)はマルチモーダル大規模言語モデル(MLLM)における専門知識の獲得に広く利用されている。
LoRAは、視覚的インストラクションチューニング中にかなり有害な冗長性を導入し、一般的な知識の忘れを悪化させ、下流のタスク性能を低下させる。
有害な冗長パラメータを排除し,一般知識と専門知識の調和を図るため,LoRASculptを提案する。
論文 参考訳(メタデータ) (2025-03-21T04:31:09Z) - Each Rank Could be an Expert: Single-Ranked Mixture of Experts LoRA for Multi-Task Learning [53.053604713064544]
Low-Rank Adaptation (LoRA)は、その効率性とモジュール性から、大きな言語モデル(LLM)を特定のドメインに適用するために広く使われている。
最近の研究は、各LoRAモジュールを専門家として扱い、複数の特殊なLoRAモジュールによるタスク干渉を軽減することで、Mixture of Experts (MoE)を採用している。
効果はあるものの、これらの手法は個々のタスク内の知識を分離することが多く、関連するタスク間で共有された知識を完全に活用することができない。
各ランクをテキスト処理することでMoEをLoRAに埋め込むシングルランク専門家LoRA(textbfSMoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-25T06:56:39Z) - MALoRA: Mixture of Asymmetric Low-Rank Adaptation for Enhanced Multi-Task Learning [29.957620178740186]
マルチタスクのシナリオでは、トレーニングの不均衡やシーソー効果といった課題が頻繁に現れます。
フレキシブルな微調整フレームワークとして非対称低ランク適応(MALoRA)の混合を提案する。
MALoRAはトレーニング可能なパラメータの数を30%から48%削減し、トレーニング速度を1.2倍にし、シングルタスクのLoRAモデルの計算効率に匹敵する。
論文 参考訳(メタデータ) (2024-10-30T07:53:52Z) - Learning Attentional Mixture of LoRAs for Language Model Continual Learning [5.405488709294211]
Low-Rank Adaption (LoRA) を用いた細調整型大規模言語モデル (LLM) は,新しいタスクに対する継続的な学習に有効なアプローチとして広く認められている。
LLMに適した連続学習手法であるLoRA(Attentional Mixture of LoRAs, AM-LoRA)を提案する。
論文 参考訳(メタデータ) (2024-09-29T08:34:54Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [51.58020580970644]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。
我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文 参考訳(メタデータ) (2023-07-05T13:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。