論文の概要: Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy
- arxiv url: http://arxiv.org/abs/2310.01334v2
- Date: Thu, 14 Mar 2024 11:01:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 02:42:46.524024
- Title: Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy
- Title(参考訳): 合併、そして圧縮-効率の良いSMoEをルーティング政策のヒントでデミスティフィケート
- Authors: Pingzhi Li, Zhenyu Zhang, Prateek Yadav, Yi-Lin Sung, Yu Cheng, Mohit Bansal, Tianlong Chen,
- Abstract要約: わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
- 参考スコア(独自算出の注目度): 84.11508381847929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparsely activated Mixture-of-Experts (SMoE) has shown promise to scale up the learning capacity of neural networks, however, they have issues like (a) High Memory Usage, due to duplication of the network layers into multiple copies as experts; and (b) Redundancy in Experts, as common learning-based routing policies suffer from representational collapse. Therefore, vanilla SMoE models are memory inefficient and non-scalable, especially for resource-constrained downstream scenarios. In this paper, we ask: Can we craft a compact SMoE model by consolidating expert information? What is the best recipe to merge multiple experts into fewer but more knowledgeable experts? Our pilot investigation reveals that conventional model merging methods fail to be effective in such expert merging for SMoE. The potential reasons are: (1) redundant information overshadows critical experts; (2) appropriate neuron permutation for each expert is missing to bring all of them in alignment. To address this, we propose M-SMoE, which leverages routing statistics to guide expert merging. Specifically, it starts with neuron permutation alignment for experts; then, dominant experts and their "group members" are formed; lastly, every expert group is merged into a single expert by utilizing each expert's activation frequency as their weight for merging, thus diminishing the impact of insignificant experts. Moreover, we observed that our proposed merging promotes a low dimensionality in the merged expert's weight space, naturally paving the way for additional compression. Hence, our final method, MC-SMoE (i.e., Merge, then Compress SMoE), further decomposes the merged experts into low-rank and structural sparse alternatives. Extensive experiments across 8 benchmarks validate the effectiveness of MC-SMoE. For instance, our MC-SMoE achieves up to 80% memory and a 20% FLOPs reduction, with virtually no loss in performance.
- Abstract(参考訳): わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
(a)高メモリ使用は、ネットワーク層が複数のコピーに重複していることによるものであり、かつ、
b) 共通学習に基づくルーティングポリシーが表現的崩壊に苦しむ専門家の冗長性
したがって、バニラSMoEモデルはメモリ非効率であり、特にリソース制約のある下流シナリオではスケールできない。
本稿では,専門家情報を統合することで,コンパクトなSMoEモデルを構築できるだろうか?
複数の専門家を少ないがより知識のある専門家にマージする最良のレシピは何ですか?
実験により,従来のモデルマージ手法では,SMoEのエキスパートマージには有効ではないことが明らかとなった。
潜在的な理由は、(1) 過剰な情報が専門家を覆い隠すこと、(2) 各専門家に適切なニューロンの置換が欠如していることである。
そこで我々は,M-SMoEを提案する。このM-SMoEは,ルーティング統計を利用して,エキスパートのマージをガイドする。
具体的には、専門家のためのニューロン置換アライメントから始まり、その後、支配的な専門家とその「グループメンバー」が形成される。最後に、各専門家グループは、それぞれの専門家のアクティベーション周波数をマージのウェイトとして利用することにより、重要でない専門家の影響を減らし、単一の専門家にマージされる。
さらに,本提案手法は,合併した専門家の重み空間における低次元性を促進し,自然に圧縮の道を開くことを観察した。
したがって、最終手法であるMC-SMoE(Merge, then Compress SMoE)は、マージされた専門家を低ランクで構造的なスパースな代替品に分解する。
MC-SMoEの有効性を8つのベンチマークで検証した。
例えば、私たちのMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能の低下はほとんどありません。
関連論文リスト
- MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - Beyond Parameter Count: Implicit Bias in Soft Mixture of Experts [44.09546603624385]
ソフトモエの専門専門化について紹介する。
小さな専門家がたくさんいる場合、アーキテクチャは暗黙的に偏りがあり、専門的な専門家のサブセットを効率的に近似できることを示している。
論文 参考訳(メタデータ) (2024-09-02T00:39:00Z) - BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts [41.83123857437985]
大規模な体制でゼロからMoEを訓練することは違法に高価である。
本稿では,BAM(Branch-Attend-Mix)を提案する。
5億9000万から20億のパラメータのシードモデルに関する実験では、BAMがパープレキシティとダウンストリームのタスクパフォーマンスの両方でベースラインを超えていることが示されている。
論文 参考訳(メタデータ) (2024-08-15T17:19:12Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。