論文の概要: Training-Free Dynamic Upcycling of Expert Language Models
- arxiv url: http://arxiv.org/abs/2603.29765v1
- Date: Tue, 31 Mar 2026 14:05:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.702667
- Title: Training-Free Dynamic Upcycling of Expert Language Models
- Title(参考訳): エキスパート言語モデルの学習自由度向上
- Authors: Eros Fanì, Oğuzhan Ersoy,
- Abstract要約: 我々は、異なるドメインで訓練された密集したエキスパートを再利用し、統一されたMoEモデルを構築する新しいアプローチであるDynamic Upcycling MoEを紹介する。
提案手法は,訓練を必要とせず,元の密集した専門家の能力を保った単一マルチタスクモデルを構築する。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable performance on a wide range of specialized tasks, exhibiting strong problem-solving capabilities. However, training these models is prohibitively expensive, and they often lack domain-specific expertise because they rely on general knowledge datasets. Expertise finetuning can address this issue; however, it often leads to overspecialization, and developing a single multi-domain expert remains difficult due to diverging objectives. Furthermore, multitask training is challenging due to interference and catastrophic forgetting. Existing work proposes combining the expertise of dense models within a Mixture of Experts (MoE) architecture, although this approach still requires multitask finetuning. To address these issues, we introduce Dynamic Upcycling MoE (DUME), a novel approach that reuses dense experts trained on different domains to construct a unified MoE model. Our method builds a single multitask model that preserves the capabilities of the original dense experts without requiring additional training. DUME is both cost-efficient and scalable: by leveraging the closed-form solution of ridge regression, it eliminates the need for further optimization and enables experts to be added dynamically while maintaining the model's original performance. We demonstrate that DUME consistently outperforms baseline approaches in both causal language modeling and reasoning settings. Finally, we also show that the DUME model can be fine-tuned to further improve performance. We show that, in the causal language modeling setting, DUME can retain up to 97.6% of a dense expert model specialized in one particular domain, and that it can also surpass it in the reasoning setting, where it can achieve 102.1% of the dense expert performance. Our code is available at: github.com/gensyn-ai/dume.
- Abstract(参考訳): 大規模言語モデル(LLM)は、広範囲の専門的なタスクにおいて顕著なパフォーマンスを達成し、強力な問題解決能力を示している。
しかし、これらのモデルのトレーニングは違法に高価であり、一般的な知識データセットに依存するため、ドメイン固有の専門知識を欠くことが多い。
エキスパートの微調整はこの問題に対処できるが、特殊化の過大化につながることが多く、目的の多様化によって単一のマルチドメインエキスパートの開発は難しいままである。
さらに、干渉と破滅的な忘れが原因でマルチタスクトレーニングは困難である。
既存の研究は、Mixture of Experts (MoE)アーキテクチャ内で密集モデルの専門知識を組み合わせることを提案しているが、このアプローチには依然としてマルチタスクの微調整が必要である。
これらの問題に対処するために、異なるドメインで訓練された密集したエキスパートを再利用し、統一されたMoEモデルを構築する新しいアプローチであるDynamic Upcycling MoE (DUME)を導入する。
提案手法は,訓練を必要とせず,元の密集した専門家の能力を保った単一マルチタスクモデルを構築する。
尾根回帰のクローズドフォームソリューションを利用することで、さらなる最適化の必要性を排除し、モデルの本来のパフォーマンスを維持しながら、エキスパートを動的に追加できるようにする。
我々は、DUMEが因果的言語モデリングと推論設定の両方において、ベースラインアプローチを一貫して上回っていることを実証する。
最後に,DUMEモデルを微調整して,さらなる性能向上を図れることを示す。
因果的言語モデリング環境では、DUMEは特定のドメインに特有な高密度専門家モデルの97.6%を維持でき、また、高密度専門家のパフォーマンスの102.1%を達成できる推論設定でもそれを超えることができることを示す。
私たちのコードは、github.com/gensyn-ai/dumeで利用可能です。
関連論文リスト
- Expert Divergence Learning for MoE-based Language Models [21.857507958048696]
本稿では,専門家間の機能的専門化を明確に促進する,新しい事前学習戦略であるExpert Divergence Learningを紹介する。
本手法は,事前学習コーパスに固有のドメインラベルを活用するラベル駆動補助損失を組み込む。
我々は,最大150億パラメータのMoEモデルをスクラッチから事前学習することで,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2026-02-10T06:58:38Z) - ERNIE 5.0 Technical Report [244.36480708815316]
ERNIE 5.0は、テキスト、画像、ビデオ、オーディオをまたいだ統合されたマルチモーダル理解と生成のための統合された自己回帰基盤モデルである。
ERNIE 5.0は、多様なリソース制約下での大規模デプロイメントの実践的な課題に対処するため、新しい弾力性トレーニングパラダイムを採用している。
ERNIE 5.0は、複数のモードで強い、バランスの取れた性能を実現する。
論文 参考訳(メタデータ) (2026-02-04T16:18:15Z) - Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - Symphony-MoE: Harmonizing Disparate Pre-trained Models into a Coherent Mixture-of-Experts [18.18231276284727]
Mixture-of-Experts (MoE)モデルは、大きなパラメータセットをわずかに活性化することにより、スケーラブルなパフォーマンスを実現する。
近年の作業では、フィードフォワードネットワーク(FFN)層を専門家に複製することで、トレーニング済みの高密度モデル1つを再利用している。
本稿では、複数の同一構造を持つ異なる事前学習モデルから得られたエキスパートを用いて、強力なMoEモデルを構築することにより、この制限に対処する。
論文 参考訳(メタデータ) (2025-09-23T02:07:14Z) - SpectR: Dynamically Composing LM Experts with Spectral Routing [37.969478059005574]
本稿では、推論中の各ステップで専門家モデルを動的に構成するアプローチであるSPECTRを紹介する。
SPECTRでは、代替のトレーニング不要な手法よりもルーティング精度が向上し、エキスパートドメイン間のタスク性能が向上することを示す。
論文 参考訳(メタデータ) (2025-04-04T13:58:44Z) - Scalable Multi-Domain Adaptation of Language Models using Modular Experts [10.393155077703653]
MoDEは、モジュール化されたドメインの専門家による一般的なPLMを強化する、エキスパートの混成アーキテクチャである。
MoDEは完全なパラメータの微調整に匹敵する目標性能を達成し、保持性能は1.65%向上した。
論文 参考訳(メタデータ) (2024-10-14T06:02:56Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。