論文の概要: Stable Routing for Mixture-of-Experts in Class-Incremental Learning
- arxiv url: http://arxiv.org/abs/2605.17571v1
- Date: Sun, 17 May 2026 17:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.380198
- Title: Stable Routing for Mixture-of-Experts in Class-Incremental Learning
- Title(参考訳): クラスインクリメンタル学習におけるミックス・オブ・エクササイズのための安定なルーティング
- Authors: Zirui Guo, Quan Cheng, Da-Wei Zhou, Lijun Zhang,
- Abstract要約: CIL(Class-incremental Learning)は、事前の知識を維持しつつ、新しいクラスを逐次学習するモデルを必要とする。
我々は、CILにおける拡張可能なMoEには、知識保存のための安定な古いクラスルーティングと、新しいクラス適応のための十分なキャパシティ利用の2つの相補的な特性が必要であると主張している。
- 参考スコア(独自算出の注目度): 20.71580878837982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Class-incremental learning (CIL) requires models to learn new classes sequentially while preserving prior knowledge. Recently, approaches that combine pre-trained models with mixture-of-experts (MoE) have received increasing attention in CIL: they typically expand experts during learning and employ a router to assign weights across experts. However, existing MoE methods often overlook routing drift induced by expert expansion. Once new experts are introduced, the router may reassign samples from earlier classes to newly added experts, thereby perturbing previously established expert compositions and causing interference even when old experts remain frozen. We argue that expandable MoE in CIL requires two complementary properties: stable old-class routing for knowledge preservation and sufficient capacity utilization for new-class adaptation. To this end, we propose Stable Routing for MoE (StaR-MoE), a routing-level framework for expandable MoE in CIL. By incorporating sensitivity-aware routing alignment, StaR-MoE aligns current old-class routing behavior with historical routing distributions through sensitivity-guided constraints. Complementarily, StaR-MoE introduces asymmetric capacity regularization to encourage effective utilization of the expanded expert pool without compromising class-specific routing specialization. Extensive experiments across four standard CIL benchmarks demonstrate that StaR-MoE consistently improves both average and last accuracy over state-of-the-art methods, highlighting the importance of stable routing.
- Abstract(参考訳): CIL(Class-incremental Learning)は、事前の知識を維持しつつ、新しいクラスを逐次学習するモデルを必要とする。
近年、訓練済みモデルとMix-of-Experts(MoE)を組み合わせるアプローチは、CILにおいて注目を集めている。
しかし、既存のMoE法は、しばしば専門家拡張によって誘導されるルーティングドリフトを見落としている。
新しい専門家が登場すると、ルータは以前のクラスから新しい専門家にサンプルを再割り当てし、既存の専門家構成を混乱させ、古い専門家が凍っていても干渉を引き起こす可能性がある。
我々は、CILにおける拡張可能なMoEには、知識保存のための安定な古いクラスルーティングと、新しいクラス適応のための十分なキャパシティ利用の2つの相補的な特性が必要であると主張している。
そこで本研究では,CILで拡張可能なMoEのためのルーティングレベルフレームワークであるStaR-MoE(Stable Routing for MoE)を提案する。
感度アウェアなルーティングアライメントを導入することで、StaR-MoEは、現在の旧来のルーティング動作と、感度誘導制約による過去のルーティング分布を整列する。
相補的に、StaR-MoEは、クラス固有のルーティング特化を損なうことなく、拡張されたエキスパートプールの有効利用を促進するために非対称なキャパシティ正規化を導入する。
4つの標準CILベンチマークによる大規模な実験により、StaR-MoEは最先端の手法よりも平均と最終の精度を一貫して改善し、安定したルーティングの重要性を強調している。
関連論文リスト
- Enhancing Mixture-of-Experts Specialization via Cluster-Aware Upcycling [64.1662577506775]
クラスタ対応のアップサイクリングは専門家の対称性を破り、データ分散に合わせて早期の特殊化を促進する。
CLIP ViT-B/32 と ViT-B/16 で評価すると、クラスタ対応の Upcycling は既存のメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2026-04-15T05:52:25Z) - On Token's Dilemma: Dynamic MoE with Drift-Aware Token Assignment for Continual Learning of Large Vision Language Models [17.04431326257041]
ドリフト対応トークン代入でMoEを漸進的に拡張する動的MoEフレームワークを提案する。
具体的には、トークンレベルのアサインガイダンスは、確立されたルーティングパターンを維持するために、新しい専門家から曖昧で古いトークンを分離する。
我々のLLaVA-DyMoEは、ルーティングドリフトによって引き起こされる忘れを効果的に軽減し、平均的な最終精度で7%以上向上し、ベースラインと比較して忘れを12%減少させる。
論文 参考訳(メタデータ) (2026-03-29T02:30:55Z) - LAR-MoE: Latent-Aligned Routing for Mixture of Experts in Robotic Imitation Learning [1.7272266547709354]
政策学習から教師なしスキル発見を分離する2段階のフレームワークであるLAR-MoE(Latent-Aligned Routing for Mixture of Experts)を紹介する。
プレトレーニングでは,学生と教師の協調学習を通じて,観察と今後の行動の協調的潜在表現を学習する。
訓練後の段階では、専門家のルーティングは学習された潜在空間の構造に従うように規則化され、専門家の崩壊を防ぐ。
論文 参考訳(メタデータ) (2026-03-09T15:10:31Z) - SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning [83.66308307152808]
マルチモーダル・インストラクション・チューニング(MCIT)のためのStAbilized Mixture-of-Experts(SAME)を提案する。
プロプライエタリは、サブスペースへのルーティングダイナミクスを分解し、タスク関連方向のみを更新することで、専門家の選択を安定化する。
また、トレーニング中に選択した専門家を凍結するためにアダプティブな専門家アクティベーションを導入し、冗長でクロスタスクな干渉を減らす。
論文 参考訳(メタデータ) (2026-02-02T11:47:06Z) - L2R: Low-Rank and Lipschitz-Controlled Routing for Mixture-of-Experts [49.90176890917986]
ルーティング空間とスコアリング幾何の両方を共用する統一的なルーティングフレームワークであるL2Rを提案する。
L2Rは、共有低ランク遅延ルーティング空間で専門家の割り当てを行い、ルーティング関数のリプシッツ挙動を明示的に制御するために飽和内積スコーリング(SIPS)を導入している。
大規模言語MoEモデルとImageNet上のビジョンMoE設定の実験では、L2Rはルーティングの安定性、専門家の専門化、モデル全体のパフォーマンスを一貫して改善している。
論文 参考訳(メタデータ) (2026-01-29T07:18:33Z) - Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts [74.40169987564724]
エキスパート並列性(EP)は、複数のデバイスに専門家を分散させることで、MoEモデルをスケールするように設計されている。
極端な不均衡の下で、EPは少数の専門家に不均等な数のトークンを渡し、計算とメモリバウンドの障害を引き起こす。
本稿では,過剰なトークンと関連する専門家パラメータを過負荷デバイスから未利用デバイスへ動的に再帰する新しいEPアルゴリズムであるLast-Loaded Expert Parallelism (LLEP)を提案する。
論文 参考訳(メタデータ) (2026-01-23T18:19:15Z) - Dynamic Mixture of Progressive Parameter-Efficient Expert Library for Lifelong Robot Learning [64.88132446226474]
ジェネラリストエージェントは生涯を通じて継続的に学び、適応し、忘れを最小化しながら効率的な転送を実現する必要がある。
従来の研究は、シングルタスク適応のためのパラメータ効率の良い微調整を探索し、少数のパラメータで凍結事前訓練されたモデルを効果的に操る。
本稿では,生涯にわたるロボット学習のためのDMPEL(Dynamic Mixture of Progressive Efficient Expert Library)を提案する。
論文 参考訳(メタデータ) (2025-06-06T11:13:04Z) - MoTE: Mixture of Task-specific Experts for Pre-Trained ModelBased Class-incremental Learning [39.892628170627496]
クラスインクリメンタルラーニング(CIL)では、ストリーミングデータから新たな知識を継続的に取得するために、ディープラーニングモデルが必要である。
プロンプトベースのアプローチはプロンプトオーバーライトに悩まされ、アダプタベースの手法はタスク間の次元的ミスアライメントのような課題に直面している。
本稿では,不整合出力次元による誤判定を効果的に軽減するタスク特化専門家(MoTE)フレームワークの混合を提案する。
論文 参考訳(メタデータ) (2025-05-21T03:06:10Z) - Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM [81.18305296110853]
大規模言語モデル(LLM)を学習し,複数の専門分野の能力を持つための効率的な手法について検討する。
当社の手法はBブランチ・トレイン・MiX (BTX) という種モデルから始まり, 恥ずかしいほど並列な方法で専門家を訓練する。
BTXは、ルーティングを学ぶためのMoEの微調整段階を持たないブランチ・トレイン・マージ法と、エキスパートの非同期訓練を省略するスパース・アップサイクリングという2つの特殊なケースを一般化している。
論文 参考訳(メタデータ) (2024-03-12T16:54:58Z) - Soft Merging of Experts with Adaptive Routing [38.962451264172856]
適応ルーティングによるエキスパートのソフトマージ(SMEAR)について紹介する
SMEARは、専門家のパラメータの重み付け平均を通して構築された単一の「マージされた」専門家を使用することで、離散的なルーティングを避ける。
我々は,メタデータに基づいた経路モデルや,勾配推定によるスパースルーティングを学習するSMEARモデルを用いたモデルの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-06T15:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。