論文の概要: DeRS: Towards Extremely Efficient Upcycled Mixture-of-Experts Models
- arxiv url: http://arxiv.org/abs/2503.01359v1
- Date: Mon, 03 Mar 2025 09:52:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:16:39.619335
- Title: DeRS: Towards Extremely Efficient Upcycled Mixture-of-Experts Models
- Title(参考訳): DeRS: 非常に効率的な再資源化混合モデルを目指して
- Authors: Yongqi Huang, Peng Ye, Chenyu Huang, Jianjian Cao, Lin Zhang, Baopu Li, Gang Yu, Tao Chen,
- Abstract要約: リサイクル・ミックス・オブ・エクササイズ(MoE)モデルは、様々なタスクにおいて大きな可能性を示している。
これらのモデルは、複数の専門家の導入により、依然としてかなりのパラメータ非効率に悩まされている。
本稿では,この欠点を克服する新しいDeRS(Decompose, Replace, and Synthesis)パラダイムを提案する。
- 参考スコア(独自算出の注目度): 35.4157501560501
- License:
- Abstract: Upcycled Mixture-of-Experts (MoE) models have shown great potential in various tasks by converting the original Feed-Forward Network (FFN) layers in pre-trained dense models into MoE layers. However, these models still suffer from significant parameter inefficiency due to the introduction of multiple experts. In this work, we propose a novel DeRS (Decompose, Replace, and Synthesis) paradigm to overcome this shortcoming, which is motivated by our observations about the unique redundancy mechanisms of upcycled MoE experts. Specifically, DeRS decomposes the experts into one expert-shared base weight and multiple expert-specific delta weights, and subsequently represents these delta weights in lightweight forms. Our proposed DeRS paradigm can be applied to enhance parameter efficiency in two different scenarios, including: 1) DeRS Compression for inference stage, using sparsification or quantization to compress vanilla upcycled MoE models; and 2) DeRS Upcycling for training stage, employing lightweight sparse or low-rank matrixes to efficiently upcycle dense models into MoE models. Extensive experiments across three different tasks show that the proposed methods can achieve extreme parameter efficiency while maintaining the performance for both training and compression of upcycled MoE models.
- Abstract(参考訳): 事前学習された高密度モデルのフィードフォワードネットワーク(FFN)層をMoE層に変換することで,MoEモデルが様々なタスクにおいて大きな可能性を示している。
しかし、これらのモデルは、複数の専門家の導入により、重要なパラメータ非効率に悩まされている。
本研究では,この欠点を克服する新しいDeRS(Decompose, Replace, and Synthesis)パラダイムを提案する。
具体的には、DeRSは専門家を1つの専門家共有のベースウェイトと複数の専門家固有のデルタウェイトに分解し、その後、これらのデルタウェイトを軽量な形で表現する。
提案したDeRSパラダイムは,2つのシナリオにおいてパラメータ効率を向上させるために適用することができる。
1)スパシフィケーションまたは量子化を用いてバニラ上循環型MoEモデルを圧縮した推論段階のDeRS圧縮
2) 軽量スパースまたは低ランクマトリックスを用いたトレーニング段階のDeRSアップサイクリングにより, 濃厚モデルをMoEモデルに効率よくアップサイクリングする。
3つの異なるタスクにまたがる広範囲な実験により、提案手法は、アップサイクルMOEモデルのトレーニングと圧縮の両方のパフォーマンスを維持しながら、極端なパラメータ効率を実現することができることを示した。
関連論文リスト
- CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference [33.871080938643566]
大規模言語モデル(LLM)はモデルパラメータのスケーリングによって素晴らしいパフォーマンスを達成するが、これはかなりの推論オーバーヘッドを伴う。
我々は,高密度モデルからMoEモデルを効率的に彫る新しいフレームワークであるCMoEを提案する。
CMoEは、効率的なエキスパートグループ化と軽量適応によって、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-02-06T14:05:30Z) - ToMoE: Converting Dense Large Language Models to Mixture-of-Experts through Dynamic Structural Pruning [24.8038863056542]
大規模言語モデル(LLM)は、幅広い複雑なタスクに対処する際、顕著な能力を示した。
その膨大な計算とメモリコストは、これらのモデルをリソース制約されたデバイスにデプロイする際の大きな課題を提起する。
本研究では,高密度モデルに一定数のアクティブパラメータを保持するために,異なる動的プルーニング手法を提案する。
論文 参考訳(メタデータ) (2025-01-25T20:01:42Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts [41.83123857437985]
大規模な体制でゼロからMoEを訓練することは違法に高価である。
本稿では,BAM(Branch-Attend-Mix)を提案する。
5億9000万から20億のパラメータのシードモデルに関する実験では、BAMがパープレキシティとダウンストリームのタスクパフォーマンスの両方でベースラインを超えていることが示されている。
論文 参考訳(メタデータ) (2024-08-15T17:19:12Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks [5.536630285985836]
パラメータ効率のスペシャリティクラフト (PESC) を導入する。
PESCは、Mix-of-experts (MoE)アーキテクチャを使って、密集したモデルをスパースモデルに加工する。
我々の最良スパースモデルは他のスパースモデルよりも優れ、GP3.5に比べて優れた一般性を示す。
論文 参考訳(メタデータ) (2024-01-05T09:58:09Z) - Towards Being Parameter-Efficient: A Stratified Sparsely Activated
Transformer with Dynamic Capacity [37.04254056062765]
Stratified Mixture of Experts (SMoE)モデルは、異なるトークンに動的キャパシティを割り当てることができる。
SMoEは、同じまたは少ないパラメータで複数の最先端MoEモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-03T15:18:18Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。