論文の概要: Symphony-MoE: Harmonizing Disparate Pre-trained Models into a Coherent Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2509.18542v1
- Date: Tue, 23 Sep 2025 02:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.646889
- Title: Symphony-MoE: Harmonizing Disparate Pre-trained Models into a Coherent Mixture-of-Experts
- Title(参考訳): Symphony-MoE: 異なる訓練済みモデルをコヒーレントな混合体に調和させる
- Authors: Qi Wang, Hanyang Peng, Yue Yu,
- Abstract要約: Mixture-of-Experts (MoE)モデルは、大きなパラメータセットをわずかに活性化することにより、スケーラブルなパフォーマンスを実現する。
近年の作業では、フィードフォワードネットワーク(FFN)層を専門家に複製することで、トレーニング済みの高密度モデル1つを再利用している。
本稿では、複数の同一構造を持つ異なる事前学習モデルから得られたエキスパートを用いて、強力なMoEモデルを構築することにより、この制限に対処する。
- 参考スコア(独自算出の注目度): 18.18231276284727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) models enable scalable performance by activating large parameter sets sparsely, minimizing computational overhead. To circumvent the prohibitive cost of training MoEs from scratch, recent work employs upcycling, reusing a single pre-trained dense model by replicating its feed-forward network (FFN) layers into experts. However, this limits expert diversity, as all experts originate from a single pre-trained dense model. This paper addresses this limitation by constructing powerful MoE models using experts sourced from multiple identically-architected but disparate pre-trained models (e.g., Llama2-Chat and Code Llama). A key challenge lies in the fact that these source models occupy disparate, dissonant regions of the parameter space, making direct upcycling prone to severe performance degradation. To overcome this, we propose Symphony-MoE, a novel two-stage framework designed to harmonize these models into a single, coherent expert mixture. First, we establish this harmony in a training-free manner: we construct a shared backbone via a layer-aware fusion strategy and, crucially, alleviate parameter misalignment among experts using activation-based functional alignment. Subsequently, a single lightweight stage of router training coordinates the entire architecture. Experiments demonstrate that our method successfully integrates experts from heterogeneous sources, achieving an MoE model that significantly surpasses baselines in multi-domain tasks and out-of-distribution generalization.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、大きなパラメータセットをわずかに活性化し、計算オーバーヘッドを最小限にすることで、スケーラブルなパフォーマンスを実現する。
MoEをスクラッチからトレーニングすることの禁止コストを回避するため、最近の研究では、フィードフォワードネットワーク(FFN)層を専門家に複製することで、トレーニング済みの高密度モデル1つを再利用して、アップサイクリングを採用している。
しかし、これは専門家の多様性を制限するものであり、すべての専門家は訓練済みの高密度モデルから派生している。
本稿では,複数の同一構造を持つ異なる事前学習モデル(Llama2-Chat,Code Llamaなど)から得られたエキスパートを用いて,強力なMoEモデルを構築することにより,この制限に対処する。
重要な課題は、これらのソースモデルがパラメータ空間の異種不協和領域を占有しているという事実であり、直接のアップサイクリングは厳しい性能劣化を引き起こす。
これを解決するために,Symphony-MoEを提案する。Symphony-MoEは,これらのモデルを単一で一貫性のあるエキスパートミックスに調和させる新しい2段階のフレームワークである。
まず、この調和をトレーニングのない方法で確立する:我々は層認識融合戦略を介して共有バックボーンを構築し、重要なことに、アクティベーションベースの機能アライメントを用いた専門家間のパラメータの調整を緩和する。
その後、ルータトレーニングの1つの軽量ステージがアーキテクチャ全体を調整します。
実験により,本手法は多領域タスクのベースラインをはるかに超えるMoEモデルとアウト・オブ・ディストリビューションの一般化を実現し,ヘテロジニアスソースからのエキスパートをうまく統合することを示した。
関連論文リスト
- Scaling Laws for Native Multimodal Models [53.490942903659565]
我々は、ネイティブマルチモーダルモデルのアーキテクチャ設計を再考し、広範なスケーリング法の研究を行う。
我々の調査では、早期核融合アーキテクチャよりも後期核融合アーキテクチャに固有の利点は示されていない。
モデルにMixture of Experts(MoEs)を組み込むことで、モデルがモダリティ固有の重みを学習し、性能を著しく向上できることを示す。
論文 参考訳(メタデータ) (2025-04-10T17:57:28Z) - The Non-Local Model Merging Problem: Permutation Symmetries and Variance Collapse [25.002218722102505]
モデルマージは、特定のタスクでトレーニングされた複数のエキスパートモデルの重みを、単一のマルチタスクモデルに効率的に結合することを目的としている。
この研究は、"非ローカル"マージのより困難なシナリオを探求する。
標準的なマージ技術は、この非局所的な環境で効果的に一般化できないことが多い。
本稿では,タスク毎のマージモデルの出力アクティベーションを再スケール・シフトするマルチタスク手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T17:41:59Z) - Retraining-Free Merging of Sparse MoE via Hierarchical Clustering [14.858134039539697]
本稿では, 疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングについて紹介する。
HC-SMoEは、パラメータ還元のためのタスクに依存しないエキスパートマージフレームワークである。
我々は、QwenやMixtralを含む最先端モデルにおけるHC-SMoEの有効性を示すために、複数のゼロショット言語タスクの理論的解析と評価を行う。
論文 参考訳(メタデータ) (2024-10-11T07:36:14Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts [41.83123857437985]
大規模な体制でゼロからMoEを訓練することは違法に高価である。
本稿では,BAM(Branch-Attend-Mix)を提案する。
5億9000万から20億のパラメータのシードモデルに関する実験では、BAMがパープレキシティとダウンストリームのタスクパフォーマンスの両方でベースラインを超えていることが示されている。
論文 参考訳(メタデータ) (2024-08-15T17:19:12Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Revisiting Single-gated Mixtures of Experts [13.591354795556972]
より実践的なトレーニングを可能にする単純なシングルゲートMOEを再考することを提案する。
当社の仕事の鍵は、(i) アーリーエグジットとアンサンブルな正規化スキームの両方として機能するベースモデルブランチです。
提案モデルが他の複雑なMoEに匹敵する効率と精度のトレードオフを得ることを示す。
論文 参考訳(メタデータ) (2023-04-11T21:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。