論文の概要: Dynamic Expert Specialization: Towards Catastrophic Forgetting-Free Multi-Domain MoE Adaptation
- arxiv url: http://arxiv.org/abs/2509.16882v1
- Date: Sun, 21 Sep 2025 02:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.01816
- Title: Dynamic Expert Specialization: Towards Catastrophic Forgetting-Free Multi-Domain MoE Adaptation
- Title(参考訳): 動的エキスパートスペシャライゼーション:カタストロフィックなフォールディングフリーマルチドメインMOE適応を目指して
- Authors: Junzhuo Li, Bo Wang, Xiuze Zhou, Xuming Hu,
- Abstract要約: 我々は,Mixture-of-Expertsモデルのマルチドメイン適応のための動的専門家専門化フレームワークDES-MoEを提案する。
DES-MoEは,(1)事前学習した知識保持と蒸留によるタスク固有の更新のバランスをとる適応ルータ,(2)リアルタイムの専門家-ドメイン相関マッピング,(3)非特定パラメータを段階的に凍結する3相適応微調整スケジュールの3つのイノベーションを通じて,破滅的な忘れに対処する。
- 参考スコア(独自算出の注目度): 35.38408768980583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) models offer immense capacity via sparsely gated expert subnetworks, yet adapting them to multiple domains without catastrophic forgetting remains an open challenge. Existing approaches either incur prohibitive computation, suffer cross-domain interference, or require separate runs per domain. We propose DES-MoE, a dynamic expert specialization framework for multi-domain adaptation of Mixture-of-Experts models. DES-MoE addresses catastrophic forgetting through three innovations: (1) an adaptive router balancing pre-trained knowledge retention and task-specific updates via distillation, (2) real-time expert-domain correlation mapping to isolate domain-specific gradients, and (3) a three-phase adaptive fine-tuning schedule that progressively freezes non-specialized parameters. Evaluated on six domains (math, code, law, etc.), DES-MoE matches single-domain ESFT performance while training one unified model, reduces forgetting by 89% compared to full fine-tuning as domains scale from 2 to 6, and achieves 68% faster convergence than conventional methods. Our work establishes dynamic expert isolation as a scalable paradigm for multi-task MoE adaptation.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、疎結合のエキスパートサブネットワークを通じて膨大な容量を提供するが、破滅的な忘れをせずに複数のドメインに適応することは、依然としてオープンな課題である。
既存のアプローチでは、禁止された計算を発生させるか、ドメイン間の干渉に悩まされるか、ドメイン毎に別々の実行が必要になる。
我々は,Mixture-of-Expertsモデルのマルチドメイン適応のための動的専門家専門化フレームワークDES-MoEを提案する。
DES-MoEは、(1)事前学習した知識保持と蒸留によるタスク固有の更新のバランスをとる適応ルータ、(2)ドメイン固有の勾配を分離するリアルタイム専門家ドメイン相関マッピング、(3)非特殊化パラメータを段階的に凍結する3段階適応微調整スケジュールの3つの革新を通じて破滅的な忘れに対処する。
DES-MoEは6つのドメイン(マス、コード、法則など)で評価され、1つの統一モデルのトレーニング中に単一ドメインESFTのパフォーマンスと一致し、ドメインが2から6にスケールするにつれて、完全な微調整に比べて忘れを89%削減し、従来の方法よりも68%早く収束する。
我々の研究は、マルチタスクMOE適応のためのスケーラブルなパラダイムとして、動的専門家分離を確立します。
関連論文リスト
- MoE-MLoRA for Multi-Domain CTR Prediction: Efficient Adaptation with Expert Specialization [0.0]
MoE-MLoRAはエキスパートの混成フレームワークで、各専門家はドメインを専門にするために独立して訓練される。
MoE-MLoRAはMovielensとTaobaoの8つのCTRモデルで評価した。
論文 参考訳(メタデータ) (2025-06-09T09:03:05Z) - UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。
我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。
また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文 参考訳(メタデータ) (2025-03-26T17:33:23Z) - Scalable Multi-Domain Adaptation of Language Models using Modular Experts [10.393155077703653]
MoDEは、モジュール化されたドメインの専門家による一般的なPLMを強化する、エキスパートの混成アーキテクチャである。
MoDEは完全なパラメータの微調整に匹敵する目標性能を達成し、保持性能は1.65%向上した。
論文 参考訳(メタデータ) (2024-10-14T06:02:56Z) - Investigating the potential of Sparse Mixtures-of-Experts for multi-domain neural machine translation [59.41178047749177]
トレーニング中に見られるさまざまなドメインのデータを扱うことができ、トレーニング中に見つからないドメインに対して堅牢な効率的なモデルを開発することを目的として、マルチドメインニューラルネットワーク翻訳に重点を置いている。
SMOE(Sparse Mixture-of-Experts)モデルは、効率的なモデルスケーリングを可能にするため、このタスクに適していると仮定する。
マルチドメインシナリオにおけるSMoEの有用性を検証するための一連の実験を行い、Transformerの簡単な幅スケーリングは、実際はよりシンプルで驚くほど効率的なアプローチであり、SMoEと同等の性能レベルに達することを発見した。
論文 参考訳(メタデータ) (2024-07-01T09:45:22Z) - BECoTTA: Input-dependent Online Blending of Experts for Continual Test-time Adaptation [59.1863462632777]
連続テスト時間適応(CTTA)は、学習済みの知識を維持しながら、継続的に見えない領域に効率的に適応するために必要である。
本稿では,CTTAの入力依存かつ効率的なモジュール化フレームワークであるBECoTTAを提案する。
提案手法は, トレーニング可能なパラメータを98%少なく抑えながら, 整合性や漸進性などの複数のCTTAシナリオに優れることを確認した。
論文 参考訳(メタデータ) (2024-02-13T18:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。