論文の概要: S2MoE: Robust Sparse Mixture of Experts via Stochastic Learning
- arxiv url: http://arxiv.org/abs/2503.23007v1
- Date: Sat, 29 Mar 2025 08:14:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:36:57.636719
- Title: S2MoE: Robust Sparse Mixture of Experts via Stochastic Learning
- Title(参考訳): S2MoE:確率学習によるエキスパートのロバストなスパースミックス
- Authors: Giang Do, Hung Le, Truyen Tran,
- Abstract要約: SMOE(Sparse Mixture of Experts)は、入力トークンを特定の専門家にルーティングすることで、大規模な言語モデルの効率的なトレーニングを可能にする。
近年の研究では、この問題を軽減するためにルータの改善に重点を置いているが、既存のアプローチには2つの重要な制限がある。
本稿では,ロバスト学習(S2MoE)によるエキスパートのスパース混合(Sparse Mixture of Experts)という,決定論的および非決定論的入力から学習するために設計されたエキスパートの混合手法を提案する。
- 参考スコア(独自算出の注目度): 34.20340688374905
- License:
- Abstract: Sparse Mixture of Experts (SMoE) enables efficient training of large language models by routing input tokens to a select number of experts. However, training SMoE remains challenging due to the issue of representation collapse. Recent studies have focused on improving the router to mitigate this problem, but existing approaches face two key limitations: (1) expert embeddings are significantly smaller than the model's dimension, contributing to representation collapse, and (2) routing each input to the Top-K experts can cause them to learn overly similar features. In this work, we propose a novel approach called Robust Sparse Mixture of Experts via Stochastic Learning (S2MoE), which is a mixture of experts designed to learn from both deterministic and non-deterministic inputs via Learning under Uncertainty. Extensive experiments across various tasks demonstrate that S2MoE achieves performance comparable to other routing methods while reducing computational inference costs by 28%.
- Abstract(参考訳): SMOE(Sparse Mixture of Experts)は、入力トークンを特定の専門家にルーティングすることで、大規模な言語モデルの効率的なトレーニングを可能にする。
しかし、SMoEの訓練は、表現崩壊の問題により、依然として困難である。
近年の研究では、ルータの改良に重点を置いているが、既存のアプローチでは、(1)専門家の埋め込みはモデルの次元よりも大幅に小さく、表現の崩壊に寄与し、(2)各入力をトップKの専門家にルーティングすることで、非常に類似した特徴を学習することができる。
本研究では,確率的学習(S2MoE)を用いたロバストスパース混合(Robust Sparse Mixture of Experts)と呼ばれる新しい手法を提案する。
様々なタスクにわたる大規模な実験により、S2MoEは他のルーティング手法に匹敵する性能を達成し、計算推論コストを28%削減することを示した。
関連論文リスト
- On the effectiveness of discrete representations in sparse mixture of experts [33.809432499123275]
VQMoE(Vector-Quantized Mixture of Experts)と呼ばれる新しいアーキテクチャを提案する。
VQMoEは計算コストを増大させることなく、モデルキャパシティをスケールアップするための効果的なソリューションである。
VQMoEは,他のSMoEルーティング方式と比較して,ルータの28%の改善を実現している。
論文 参考訳(メタデータ) (2024-11-28T22:32:01Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - Diversified Dynamic Routing for Vision Tasks [36.199659460868496]
本稿では,各レイヤが専門家の集合で構成された新しいアーキテクチャを提案する。
本手法では,データのパーティショニングに関する課題を解決するために,モデルを明示的に訓練する。
都市景観のセマンティックセグメンテーションとMS-COCOのオブジェクト検出とインスタンスセグメンテーションについていくつかの実験を行った。
論文 参考訳(メタデータ) (2022-09-26T23:27:51Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。