論文の概要: ExFusion: Efficient Transformer Training via Multi-Experts Fusion
- arxiv url: http://arxiv.org/abs/2603.27965v1
- Date: Mon, 30 Mar 2026 02:40:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.197215
- Title: ExFusion: Efficient Transformer Training via Multi-Experts Fusion
- Title(参考訳): 排ガス:多核融合による効率的な変圧器訓練
- Authors: Jiacheng Ruan, Daize Dong, Xiaoye Qu, Tong Zhu, Ting Liu, Yuzhuo Fu, Yu Cheng, Suncheng Xiang,
- Abstract要約: Mixture-of-Experts (MoE)モデルは、密集したアーキテクチャの容量を増やすことで性能を大幅に向上させる。
MoEモデルを直接トレーニングするには、かなりの計算リソースが必要で、パラメータの保存とデプロイに余分なオーバーヘッドが伴う。
本稿では,マルチエキスパート融合によるトランスフォーマートレーニングの効率化を図る,ExFusionと呼ばれる新しい事前学習手法を提案する。
- 参考スコア(独自算出の注目度): 44.08657544416735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models substantially improve performance by increasing the capacity of dense architectures. However, directly training MoE models requires considerable computational resources and introduces extra overhead in parameter storage and deployment. Therefore, it is critical to develop an approach that leverages the multi-expert capability of MoE to enhance performance while incurring minimal additional cost. To this end, we propose a novel pre-training approach, termed ExFusion, which improves the efficiency of Transformer training through multi-expert fusion. Specifically, during the initialization phase, ExFusion upcycles the feed-forward network (FFN) of the Transformer into a multi-expert configuration, where each expert is assigned a weight for later parameter fusion. During training, these weights allow multiple experts to be fused into a single unified expert equivalent to the original FFN, which is subsequently used for forward computation. As a result, ExFusion introduces multi-expert characteristics into the training process while incurring only marginal computational cost compared to standard dense training. After training, the learned weights are used to integrate multi-experts into a single unified expert, thereby eliminating additional overhead in storage and deployment. Extensive experiments on a variety of computer vision and natural language processing tasks demonstrate the effectiveness of the proposed method.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、密集したアーキテクチャの容量を増やすことで性能を大幅に向上させる。
しかし、直接MoEモデルを訓練するにはかなりの計算資源が必要であり、パラメータの保存と展開に余分なオーバーヘッドが伴う。
したがって、MoEのマルチエキスパート機能を活用して、最小限の追加コストを発生させながら性能を向上させるアプローチを開発することが重要である。
そこで本研究では,マルチエキスパートフュージョンによるトランスフォーマートレーニングの効率化を目的とした,ExFusionと呼ばれる新しい事前学習手法を提案する。
具体的には、初期化フェーズにおいて、ExFusionはTransformerのフィードフォワードネットワーク(FFN)をマルチエキスパート構成にリサイクルする。
トレーニング中、これらの重み付けにより、複数の専門家が元のFFNと同等の単一の統一された専門家に融合し、後にフォワード計算に使用される。
その結果、ExFusionはトレーニングプロセスにマルチエキスパート特性を導入し、通常の高密度トレーニングと比較して限界計算コストのみを発生させる。
トレーニング後、学習したウェイトを使用して、複数の専門家を単一の統一されたエキスパートに統合することで、ストレージとデプロイメントのオーバーヘッドを増やすことができる。
様々なコンピュータビジョンと自然言語処理タスクに関する大規模な実験により,提案手法の有効性が示された。
関連論文リスト
- Mixture-of-Transformers Learn Faster: A Theoretical Study on Classification Problems [59.94955550958074]
本研究では,各変圧器ブロックが連続的に訓練されたゲーティングネットワークによって制御される専門家として機能する,トラクタブルな理論的枠組みについて検討する。
専門家の専門化は、勾配の衝突を減らし、各サブタスクを強く凸させることを示す。
トレーニングによって予測損失が$O(log(epsilon-1)$のステップでゼロに近づき、単一変圧器の$O(epsilon-1)$のレートよりも大幅に向上することが証明された。
論文 参考訳(メタデータ) (2025-10-30T21:07:36Z) - Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - Elastic MoE: Unlocking the Inference-Time Scalability of Mixture-of-Experts [43.63398524449102]
Mixture-of-Experts (MoE)モデルは通常、トレーニングと推論の両方でアクティベートされた専門家の数を$k$に修正する。
新たなトレーニングフレームワークであるElastic Mixture-of-Experts(EMoE)を導入しました。
論文 参考訳(メタデータ) (2025-09-26T05:29:19Z) - Scalable Multi-Domain Adaptation of Language Models using Modular Experts [10.393155077703653]
MoDEは、モジュール化されたドメインの専門家による一般的なPLMを強化する、エキスパートの混成アーキテクチャである。
MoDEは完全なパラメータの微調整に匹敵する目標性能を達成し、保持性能は1.65%向上した。
論文 参考訳(メタデータ) (2024-10-14T06:02:56Z) - Upcycling Instruction Tuning from Dense to Mixture-of-Experts via Parameter Merging [36.0133566024214]
Upcycling Instruction Tuning (UpIT) は、密度の高い事前学習されたモデルをMoE命令モデルにチューニングするためのデータ効率のよいアプローチである。
MoEモデルの各専門家が期待通りに機能するように、我々は、ルータを事前最適化するために、各専門家が抽出する少数のシードデータを選択する。
論文 参考訳(メタデータ) (2024-10-02T14:48:22Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。