論文の概要: MomentumSMoE: Integrating Momentum into Sparse Mixture of Experts
- arxiv url: http://arxiv.org/abs/2410.14574v1
- Date: Fri, 18 Oct 2024 16:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:27:29.057214
- Title: MomentumSMoE: Integrating Momentum into Sparse Mixture of Experts
- Title(参考訳): MomentumSMoE:Momentumをエキスパートのスパースミックスに統合
- Authors: Rachel S. Y. Teo, Tan M. Nguyen,
- Abstract要約: 我々は、MomentumSMoEと呼ばれるSMoEの新しいファミリーを提案する。
我々は,MomentumSMoEがSMoEよりも安定で頑健であることを証明する。
我々は、視覚用スパースMoEモデル(V-MoE)や汎用言語モデル(GLaM)など、多くの種類のスパースMoEモデルに対するMomentumSMoEの適用性を実証する。
- 参考スコア(独自算出の注目度): 2.1605931466490795
- License:
- Abstract: Sparse Mixture of Experts (SMoE) has become the key to unlocking unparalleled scalability in deep learning. SMoE has the potential to exponentially increase parameter count while maintaining the efficiency of the model by only activating a small subset of these parameters for a given sample. However, it has been observed that SMoE suffers from unstable training and has difficulty adapting to new distributions, leading to the model's lack of robustness to data contamination. To overcome these limitations, we first establish a connection between the dynamics of the expert representations in SMoEs and gradient descent on a multi-objective optimization problem. Leveraging our framework, we then integrate momentum into SMoE and propose a new family of SMoEs named MomentumSMoE. We theoretically prove and numerically demonstrate that MomentumSMoE is more stable and robust than SMoE. In particular, we verify the advantages of MomentumSMoE over SMoE on a variety of practical tasks including ImageNet-1K object recognition and WikiText-103 language modeling. We demonstrate the applicability of MomentumSMoE to many types of SMoE models, including those in the Sparse MoE model for vision (V-MoE) and the Generalist Language Model (GLaM). We also show that other advanced momentum-based optimization methods, such as Adam, can be easily incorporated into the MomentumSMoE framework for designing new SMoE models with even better performance, almost negligible additional computation cost, and simple implementations.
- Abstract(参考訳): SMOE(Sparse Mixture of Experts)は、ディープラーニングにおける非並列スケーラビリティの鍵となっている。
SMoEは、与えられたサンプルに対して、これらのパラメータの小さなサブセットを活性化するだけで、モデルの効率を維持しながら、指数関数的にパラメータ数を増やすことができる。
しかし、SMoEは不安定なトレーニングに悩まされており、新しい分布への適応が困難であることから、データ汚染に対する堅牢性の欠如が観察されている。
これらの制限を克服するために、まず、SMoEのエキスパート表現のダイナミクスと多目的最適化問題への勾配勾配の関係を確立する。
フレームワークを活用して、SMoEに運動量を統合するとともに、MomentumSMoEと呼ばれる新しいSMoEファミリーを提案する。
理論的には、MomentumSMoEはSMoEよりも安定で頑健であることを証明し、数値的に証明する。
特に,ImageNet-1Kオブジェクト認識やWikiText-103言語モデリングなど,SMoEに対するMomentumSMoEの利点を検証する。
本稿では,視覚用スパースMoEモデル (V-MoE) や一般言語モデル (GLaM) など,様々な種類のSMoEモデルに適用可能であることを示す。
また、Adamのような他の高度な運動量に基づく最適化手法がMomentumSMoEフレームワークに簡単に組み込まれ、より優れた性能、ほぼ無視可能な計算コスト、単純な実装で新しいSMoEモデルを設計できることを示す。
関連論文リスト
- Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - Retraining-Free Merging of Sparse Mixture-of-Experts via Hierarchical Clustering [14.858134039539697]
疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングを提案する。
HC-SMoEはタスクに依存しないエキスパートマージフレームワークで、再トレーニングせずにSMoEモデルのパラメータを削減できる。
我々は8つのゼロショット言語タスクに関する広範な実験を通じてアプローチを検証するとともに、QwenやMixtralといった大規模SMoEモデルにおいてその効果を実証する。
論文 参考訳(メタデータ) (2024-10-11T07:36:14Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。