論文の概要: MomentumSMoE: Integrating Momentum into Sparse Mixture of Experts
- arxiv url: http://arxiv.org/abs/2410.14574v1
- Date: Fri, 18 Oct 2024 16:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:27:29.057214
- Title: MomentumSMoE: Integrating Momentum into Sparse Mixture of Experts
- Title(参考訳): MomentumSMoE:Momentumをエキスパートのスパースミックスに統合
- Authors: Rachel S. Y. Teo, Tan M. Nguyen,
- Abstract要約: 我々は、MomentumSMoEと呼ばれるSMoEの新しいファミリーを提案する。
我々は,MomentumSMoEがSMoEよりも安定で頑健であることを証明する。
我々は、視覚用スパースMoEモデル(V-MoE)や汎用言語モデル(GLaM)など、多くの種類のスパースMoEモデルに対するMomentumSMoEの適用性を実証する。
- 参考スコア(独自算出の注目度): 2.1605931466490795
- License:
- Abstract: Sparse Mixture of Experts (SMoE) has become the key to unlocking unparalleled scalability in deep learning. SMoE has the potential to exponentially increase parameter count while maintaining the efficiency of the model by only activating a small subset of these parameters for a given sample. However, it has been observed that SMoE suffers from unstable training and has difficulty adapting to new distributions, leading to the model's lack of robustness to data contamination. To overcome these limitations, we first establish a connection between the dynamics of the expert representations in SMoEs and gradient descent on a multi-objective optimization problem. Leveraging our framework, we then integrate momentum into SMoE and propose a new family of SMoEs named MomentumSMoE. We theoretically prove and numerically demonstrate that MomentumSMoE is more stable and robust than SMoE. In particular, we verify the advantages of MomentumSMoE over SMoE on a variety of practical tasks including ImageNet-1K object recognition and WikiText-103 language modeling. We demonstrate the applicability of MomentumSMoE to many types of SMoE models, including those in the Sparse MoE model for vision (V-MoE) and the Generalist Language Model (GLaM). We also show that other advanced momentum-based optimization methods, such as Adam, can be easily incorporated into the MomentumSMoE framework for designing new SMoE models with even better performance, almost negligible additional computation cost, and simple implementations.
- Abstract(参考訳): SMOE(Sparse Mixture of Experts)は、ディープラーニングにおける非並列スケーラビリティの鍵となっている。
SMoEは、与えられたサンプルに対して、これらのパラメータの小さなサブセットを活性化するだけで、モデルの効率を維持しながら、指数関数的にパラメータ数を増やすことができる。
しかし、SMoEは不安定なトレーニングに悩まされており、新しい分布への適応が困難であることから、データ汚染に対する堅牢性の欠如が観察されている。
これらの制限を克服するために、まず、SMoEのエキスパート表現のダイナミクスと多目的最適化問題への勾配勾配の関係を確立する。
フレームワークを活用して、SMoEに運動量を統合するとともに、MomentumSMoEと呼ばれる新しいSMoEファミリーを提案する。
理論的には、MomentumSMoEはSMoEよりも安定で頑健であることを証明し、数値的に証明する。
特に,ImageNet-1Kオブジェクト認識やWikiText-103言語モデリングなど,SMoEに対するMomentumSMoEの利点を検証する。
本稿では,視覚用スパースMoEモデル (V-MoE) や一般言語モデル (GLaM) など,様々な種類のSMoEモデルに適用可能であることを示す。
また、Adamのような他の高度な運動量に基づく最適化手法がMomentumSMoEフレームワークに簡単に組み込まれ、より優れた性能、ほぼ無視可能な計算コスト、単純な実装で新しいSMoEモデルを設計できることを示す。
関連論文リスト
- Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
論文 参考訳(メタデータ) (2024-07-19T11:12:08Z) - Time-SSM: Simplifying and Unifying State Space Models for Time Series Forecasting [22.84798547604491]
状態空間モデル(SSM)は、基底関数の集合を用いて連続系を近似し、それらを離散化して入力データを処理する。
本稿では,SSMを時系列データに適用するためのより直感的で汎用的なガイダンスを提供する,動的スペクトル演算子(Dynamic Spectral Operator)と呼ばれる新しい理論フレームワークを提案する。
パラメータの7分の1しか持たない新しいSSM基盤モデルであるTime-SSMを紹介する。
論文 参考訳(メタデータ) (2024-05-25T17:42:40Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。