論文の概要: MoTE: Mixture of Task-specific Experts for Pre-Trained ModelBased Class-incremental Learning
- arxiv url: http://arxiv.org/abs/2506.11038v1
- Date: Wed, 21 May 2025 03:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.501525
- Title: MoTE: Mixture of Task-specific Experts for Pre-Trained ModelBased Class-incremental Learning
- Title(参考訳): MoTE:事前学習モデルに基づくクラスインクリメンタルラーニングのためのタスク特化専門家の混在
- Authors: Linjie Li, Zhenyu Wu, Yang Ji,
- Abstract要約: クラスインクリメンタルラーニング(CIL)では、ストリーミングデータから新たな知識を継続的に取得するために、ディープラーニングモデルが必要である。
プロンプトベースのアプローチはプロンプトオーバーライトに悩まされ、アダプタベースの手法はタスク間の次元的ミスアライメントのような課題に直面している。
本稿では,不整合出力次元による誤判定を効果的に軽減するタスク特化専門家(MoTE)フレームワークの混合を提案する。
- 参考スコア(独自算出の注目度): 39.892628170627496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Class-incremental learning (CIL) requires deep learning models to continuously acquire new knowledge from streaming data while preserving previously learned information. Recently, CIL based on pre-trained models (PTMs) has achieved remarkable success. However, prompt-based approaches suffer from prompt overwriting, while adapter-based methods face challenges such as dimensional misalignment between tasks. While the idea of expert fusion in Mixture of Experts (MoE) can help address dimensional inconsistency, both expert and routing parameters are prone to being overwritten in dynamic environments, making MoE challenging to apply directly in CIL. To tackle these issues, we propose a mixture of task-specific experts (MoTE) framework that effectively mitigates the miscalibration caused by inconsistent output dimensions across tasks. Inspired by the weighted feature fusion and sparse activation mechanisms in MoE, we introduce task-aware expert filtering and reliable expert joint inference during the inference phase, mimicking the behavior of routing layers without inducing catastrophic forgetting. Extensive experiments demonstrate the superiority of our method without requiring an exemplar set. Furthermore, the number of tasks in MoTE scales linearly with the number of adapters. Building on this, we further explore the trade-off between adapter expansion and model performance and propose the Adapter-Limited MoTE. The code is available at https://github.com/Franklilinjie/MoTE.
- Abstract(参考訳): クラスインクリメンタルラーニング(CIL)では、ストリーミングデータから新たな知識を継続的に取得し、以前に学習した情報を保存するためにディープラーニングモデルが必要である。
近年,事前学習モデル (PTM) に基づくCILは顕著な成功を収めている。
しかし、プロンプトベースのアプローチは、プロンプトオーバーライトに悩まされ、アダプタベースの手法は、タスク間の次元的ミスアライメントのような課題に直面している。
エキスパートの混在(Mixture of Experts)におけるエキスパート融合の考え方は、次元的不整合に対処する上で有効であるが、専門家パラメータとルーティングパラメータの両方が動的環境において上書きされる傾向があるため、MoEはCILに直接適用することは困難である。
これらの課題に対処するために,タスク間の不整合出力次元による誤校正を効果的に軽減するタスク特化専門家(MoTE)フレームワークの混合を提案する。
本研究は,MoEにおける重み付け機能融合とスパース活性化機構にヒントを得て,予測フェーズにおけるタスク認識専門家フィルタリングと信頼性専門家共同推論を導入し,破滅的忘れを生じさせることなく,ルーティング層の挙動を模倣した。
大規模な実験は、例えの集合を必要とせずに、我々の方法の優越性を実証する。
さらに、MoTEのタスク数はアダプタの数とともに線形にスケールする。
これに基づいて,アダプタ拡張とモデル性能のトレードオフをさらに検討し,Adapter-Limited MoTEを提案する。
コードはhttps://github.com/Franklilinjie/MoTEで公開されている。
関連論文リスト
- LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models [21.888139819188105]
LLaVA-CMoEは、大規模言語モデルの継続的な学習フレームワークである。
Probe-Guided Knowledge Extensionメカニズムは、いつ、どこで新しいエキスパートを追加するべきかを決定する。
Probabilistic Task Locatorは各タスクを専用軽量ルータに割り当てる。
論文 参考訳(メタデータ) (2025-03-27T07:36:11Z) - MOS: Model Surgery for Pre-Trained Model-Based Class-Incremental Learning [62.78292142632335]
CIL(Class-Incremental Learning)は、古いクラスを忘れずに、新しいクラスの知識を継続的に獲得するモデルを必要とする。
既存の作業は、モデルを調整するために軽量コンポーネントを活用することを目指している。
従来の知識を忘れないようにモデルを救うため, モーデル手術(MOS)を提案する。
論文 参考訳(メタデータ) (2024-12-12T16:57:20Z) - MaskMoE: Boosting Token-Level Learning via Routing Mask in Mixture-of-Experts [38.15244333975921]
MaskMoEは、より包括的なトレーニングを行いながら、表現の多様性を維持することができる。
提案手法は,従来のMixture-of-Expertsモデルよりも,パープレキシティ(PPL)とダウンストリームタスク性能の両方で優れていた。
論文 参考訳(メタデータ) (2024-07-13T09:22:33Z) - Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。