論文の概要: Scaling Continual Learning with Bi-Level Routing Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2602.03473v1
- Date: Tue, 03 Feb 2026 12:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.450035
- Title: Scaling Continual Learning with Bi-Level Routing Mixture-of-Experts
- Title(参考訳): 双方向ルーティングによる連続学習のスケールアップ
- Authors: Meng Lou, Yunxiang Fu, Yizhou Yu,
- Abstract要約: 近年,事前学習モデル(PTM)に基づくクラスインクリメンタルラーニング(CIL)が注目されている。
非常に長いタスクシーケンス上での安定性と可塑性を維持しながら、識別的特徴表現と包括的特徴表現の両方を効果的に学習する方法は、未解決の問題である。
BR-MoE (Bi-Level Routing Mixture-of-Experts) を用いたスケーラブルな連続学習システムCaREを提案する。
- 参考スコア(独自算出の注目度): 45.405420567098155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning, especially class-incremental learning (CIL), on the basis of a pre-trained model (PTM) has garnered substantial research interest in recent years. However, how to effectively learn both discriminative and comprehensive feature representations while maintaining stability and plasticity over very long task sequences remains an open problem. We propose CaRE, a scalable {C}ontinual Le{a}rner with efficient Bi-Level {R}outing Mixture-of-{E}xperts (BR-MoE). The core idea of BR-MoE is a bi-level routing mechanism: a router selection stage that dynamically activates relevant task-specific routers, followed by an expert routing phase that dynamically activates and aggregates experts, aiming to inject discriminative and comprehensive representations into every intermediate network layer. On the other hand, we introduce a challenging evaluation protocol for comprehensively assessing CIL methods across very long task sequences spanning hundreds of tasks. Extensive experiments show that CaRE demonstrates leading performance across a variety of datasets and task settings, including commonly used CIL datasets with classical CIL settings (e.g., 5-20 tasks). To the best of our knowledge, CaRE is the first continual learner that scales to very long task sequences (ranging from 100 to over 300 non-overlapping tasks), while outperforming all baselines by a large margin on such task sequences. Code will be publicly released at https://github.com/LMMMEng/CaRE.git.
- Abstract(参考訳): 近年,PTM(pre-trained model)に基づく継続的学習,特にクラスインクリメンタルラーニング (class-incremental learning, CIL) が注目されている。
しかし、非常に長いタスクシーケンス上での安定性と可塑性を維持しながら、識別的特徴表現と包括的特徴表現の両方を効果的に学習する方法は、未解決の問題である。
そこで我々は, 拡張性のある連続Le{a}rnerであるCaREを提案し, 効率の良いbi-Level {R}outing Mixture-of-{E}xperts (BR-MoE)を提案する。
BR-MoEの中核的な考え方は、2段階のルーティングメカニズムである: 関連するタスク固有のルータを動的に活性化するルータ選択ステージと、専門家を動的に活性化し集約する専門家ルーティングフェーズであり、すべての中間ネットワーク層に差別的で包括的な表現を注入することを目的としている。
一方,何百ものタスクにまたがる非常に長いタスクシーケンスにまたがるCIL手法を包括的に評価する上で,課題評価プロトコルを導入する。
大規模な実験によると、CaREは、古典的なCIL設定(例:5~20タスク)で一般的に使用されるCILデータセットを含む、さまざまなデータセットとタスク設定で主要なパフォーマンスを示す。
私たちの知る限りでは、CaREは、非常に長いタスクシーケンス(100から300以上の非重複タスク)にスケールする最初の連続学習者です。
コードはhttps://github.com/LMMMEng/CaRE.git.comで公開される。
関連論文リスト
- CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion [9.808005698482914]
CLAREは、視覚-言語-アクションモデルによる模範のない連続学習のためのフレームワークである。
CLAREは,従来のタスクを壊滅的に忘れることなく,新しいタスクにおいて高いパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-01-14T14:23:42Z) - Separation and Collaboration: Two-Level Routing Grouped Mixture-of-Experts for Multi-Domain Continual Learning [7.361665112773847]
破滅的忘れを緩和する2レベル混合実験法(TRGE)を提案する。
TRGEはトレーニング済みのCLIPモデルを動的に拡張し、各タスクに特定の専門家グループを割り当てる。
我々は,タスク記述を生成し,正しいタスク識別子を認識するために,強力なマルチモーダル理解機能を持つマルチモーダル大規模言語モデル(MLLM)を利用する。
論文 参考訳(メタデータ) (2025-08-11T08:18:22Z) - CKAA: Cross-subspace Knowledge Alignment and Aggregation for Robust Continual Learning [80.18781219542016]
継続的学習(CL)は、シーケンシャルなタスクストリームから継続的に学習するAIモデルに権限を与える。
近年,パラメータ効率のよい微調整(PEFT)によるCL法が注目されている。
ミスリード型タスクIDに対するロバスト性を高めるために,クロスサブスペース・ナレッジアライメント・アグリゲーション(CKAA)を提案する。
論文 参考訳(メタデータ) (2025-07-13T03:11:35Z) - LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models [21.888139819188105]
LLaVA-CMoEは、大規模言語モデルの継続的な学習フレームワークである。
Probe-Guided Knowledge Extensionメカニズムは、いつ、どこで新しいエキスパートを追加するべきかを決定する。
Probabilistic Task Locatorは各タスクを専用軽量ルータに割り当てる。
論文 参考訳(メタデータ) (2025-03-27T07:36:11Z) - TaE: Task-aware Expandable Representation for Long Tail Class Incremental Learning [42.630413950957795]
本稿では,各タスクから多様な表現を学習するための新しいタスク対応拡張(TaE)フレームワークを提案する。
TaEは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-02-08T16:37:04Z) - Active Continual Learning: On Balancing Knowledge Retention and
Learnability [43.6658577908349]
一連のタスクで学んだことを忘れずに新しい知識を取得することは、継続学習(CL)の中心的焦点である。
本稿では, 能動連続学習(ACL)の課題の列における未探索問題について考察する。
ドメイン,クラス,タスクインクリメンタルシナリオにおける複数のALアルゴリズムとCLアルゴリズムの有効性と相互作用について検討する。
論文 参考訳(メタデータ) (2023-05-06T04:11:03Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - Coarse-to-Fine Q-attention with Learned Path Ranking [95.00518278458908]
本稿では,エンドエフェクタのゴールポーズを受け入れる手法であるLearned Path Ranking(LPR)を提案し,目標獲得パスのセットのランク付けを学習する。
16のRLBenchタスクにまたがるアプローチのベンチマークに加えて、実世界のタスク、タブララザも10~15分で3つのデモで学習します。
論文 参考訳(メタデータ) (2022-04-04T15:23:14Z) - iTAML: An Incremental Task-Agnostic Meta-learning Approach [123.10294801296926]
人間は経験が成長するにつれて、新しい知識を継続的に学ぶことができる。
ディープニューラルネットワークにおける以前の学習は、新しいタスクでトレーニングされたときにすぐに消えてしまう可能性がある。
遭遇した全てのタスク間の平衡を維持するために,新しいメタラーニング手法を導入する。
論文 参考訳(メタデータ) (2020-03-25T21:42:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。