論文の概要: S2MoE: Robust Sparse Mixture of Experts via Stochastic Learning
- arxiv url: http://arxiv.org/abs/2503.23007v1
- Date: Sat, 29 Mar 2025 08:14:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:56.886828
- Title: S2MoE: Robust Sparse Mixture of Experts via Stochastic Learning
- Title(参考訳): S2MoE:確率学習によるエキスパートのロバストなスパースミックス
- Authors: Giang Do, Hung Le, Truyen Tran,
- Abstract要約: SMOE(Sparse Mixture of Experts)は、入力トークンを特定の専門家にルーティングすることで、大規模な言語モデルの効率的なトレーニングを可能にする。
近年の研究では、この問題を軽減するためにルータの改善に重点を置いているが、既存のアプローチには2つの重要な制限がある。
本稿では,ロバスト学習(S2MoE)によるエキスパートのスパース混合(Sparse Mixture of Experts)という,決定論的および非決定論的入力から学習するために設計されたエキスパートの混合手法を提案する。
- 参考スコア(独自算出の注目度): 34.20340688374905
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Sparse Mixture of Experts (SMoE) enables efficient training of large language models by routing input tokens to a select number of experts. However, training SMoE remains challenging due to the issue of representation collapse. Recent studies have focused on improving the router to mitigate this problem, but existing approaches face two key limitations: (1) expert embeddings are significantly smaller than the model's dimension, contributing to representation collapse, and (2) routing each input to the Top-K experts can cause them to learn overly similar features. In this work, we propose a novel approach called Robust Sparse Mixture of Experts via Stochastic Learning (S2MoE), which is a mixture of experts designed to learn from both deterministic and non-deterministic inputs via Learning under Uncertainty. Extensive experiments across various tasks demonstrate that S2MoE achieves performance comparable to other routing methods while reducing computational inference costs by 28%.
- Abstract(参考訳): SMOE(Sparse Mixture of Experts)は、入力トークンを特定の専門家にルーティングすることで、大規模な言語モデルの効率的なトレーニングを可能にする。
しかし、SMoEの訓練は、表現崩壊の問題により、依然として困難である。
近年の研究では、ルータの改良に重点を置いているが、既存のアプローチでは、(1)専門家の埋め込みはモデルの次元よりも大幅に小さく、表現の崩壊に寄与し、(2)各入力をトップKの専門家にルーティングすることで、非常に類似した特徴を学習することができる。
本研究では,確率的学習(S2MoE)を用いたロバストスパース混合(Robust Sparse Mixture of Experts)と呼ばれる新しい手法を提案する。
様々なタスクにわたる大規模な実験により、S2MoEは他のルーティング手法に匹敵する性能を達成し、計算推論コストを28%削減することを示した。
関連論文リスト
- Unveiling Hidden Collaboration within Mixture-of-Experts in Large Language Models [5.211806751260724]
本稿では,専門家間の協調パターンを明らかにする階層型スパース辞書学習法を提案する。
また、コントリビューション・アウェア・エキスパート・プルーニング(CAEP)アルゴリズムを導入し、低コントリビューション・エキスパートを効果的に育成する。
論文 参考訳(メタデータ) (2025-04-16T04:06:15Z) - Finding Fantastic Experts in MoEs: A Unified Study for Expert Dropping Strategies and Observations [86.90549830760513]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
多様な視点から専門家の重要度を推定するためのベンチマークとして,MoE Experts Compression Suite (MC-Suite)を提案する。
我々は,SMoEsの指示追従能力が主に損なわれるという,実験的に検証された予想を提示する。
論文 参考訳(メタデータ) (2025-04-08T00:49:08Z) - Sparse Mixture of Experts as Unified Competitive Learning [34.20340688374905]
SMOE(Sparse Mixture of Experts)は、入力トークンを専門家のサブセットに指示することで、大規模な言語モデルトレーニングの効率を向上させる。
現在のSMoEは、Massive Text Embedding Benchmark (MTEB)のようなタスクと競合している。
我々は,既存のSMoEの性能向上を目的とした,新しい,効率的なフレームワークであるUnified Competitive Learning SMoEを提案する。
論文 参考訳(メタデータ) (2025-03-29T07:15:12Z) - On the effectiveness of discrete representations in sparse mixture of experts [33.809432499123275]
VQMoE(Vector-Quantized Mixture of Experts)と呼ばれる新しいアーキテクチャを提案する。
VQMoEは計算コストを増大させることなく、モデルキャパシティをスケールアップするための効果的なソリューションである。
VQMoEは,他のSMoEルーティング方式と比較して,ルータの28%の改善を実現している。
論文 参考訳(メタデータ) (2024-11-28T22:32:01Z) - A Two-Stage Learning-to-Defer Approach for Multi-Task Learning [3.4289478404209826]
分類タスクと回帰タスクを共同で扱うマルチタスク学習のための新しい2段階学習フレームワークを提案する。
我々は,分類と回帰が密結合した物体検出,電子健康記録解析の2つの課題に対して,我々の枠組みを検証した。
論文 参考訳(メタデータ) (2024-10-21T07:44:57Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。