論文の概要: Unified Sparse Mixture of Experts
- arxiv url: http://arxiv.org/abs/2503.22996v2
- Date: Mon, 27 Oct 2025 04:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.462391
- Title: Unified Sparse Mixture of Experts
- Title(参考訳): 専門家の統一スパース混合
- Authors: Giang Do, Hung Le, Truyen Tran,
- Abstract要約: SMOE(Sparse Mixture of Experts)モデルは、一定の計算オーバーヘッドを維持しながら、モデルのキャパシティをスケールする。
本稿では,これらの制約に対処する統一スパース・ミックス・オブ・エキスパート(USMoE)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.774596844618396
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Sparse Mixture of Experts (SMoEs) models scale the capacity of models while maintaining constant computational overhead. Early designs typically relied on a fixed value of $k$, where $k$ represents either the number of experts selected per token or the number of tokens assigned per expert. However, these approaches encounter three key limitations: they may fail to route to important experts or tokens, may assign irrelevant ones, and often suffer from representation collapse among experts. This paper reexamines SMoEs through the lens of \textit{Linear Programming}, and proposes a Unified Sparse Mixture of Experts (USMoE) framework that addresses these limitations. Specifically, our approach introduces a unified mechanism that integrates information from both the expert and token dimensions, and a unified scoring function that linearly combines similarity scores between experts and tokens. We provide both theoretical justification and empirical evidence demonstrating USMoE's effectiveness in overcoming the limitations of traditional routing methods. Through comprehensive evaluations on both clean and corrupted settings for large language models and vision tasks, under both training-free and training scenarios, USMoE achieves up to a 10\% performance improvement over standard approaches or reduces inference costs by up to 14\%, while maintaining competitive accuracy.
- Abstract(参考訳): SMOE(Sparse Mixture of Experts)モデルは、一定の計算オーバーヘッドを維持しながら、モデルのキャパシティをスケールする。
初期設計は通常、$k$の固定値に依存しており、$k$はトークンごとに選択された専門家の数または専門家ごとに割り当てられたトークンの数を表す。
しかし、これらのアプローチには3つの重要な制限がある: 重要な専門家やトークンへのルートに失敗したり、無関係なものを割り当てたり、専門家の間で代表的崩壊に悩まされることがある。
本稿では,SMoEをtextit{Linear Programming} のレンズを通して再検討し,これらの制約に対処する統一スパース・ミックス・オブ・エキスパートズ(USMoE)フレームワークを提案する。
具体的には、エキスパート次元とトークン次元の両方の情報を統合する統一的なメカニズムと、専門家とトークン間の類似度スコアを線形に結合する統一的なスコアリング機能を導入する。
我々は,従来のルーティング手法の限界を克服するUSMoEの有効性を示す理論的正当化と実証的証拠の両方を提供する。
大規模な言語モデルとビジョンタスクのクリーンな設定と破損した設定の両方に関する包括的な評価を通じて、トレーニングフリーとトレーニングのシナリオの両方において、USMoEは標準アプローチよりも最大10倍のパフォーマンス向上、あるいは推論コストの最大14倍の削減を実現し、競争精度を維持している。
関連論文リスト
- Enhancing CTR Prediction with De-correlated Expert Networks [53.05653547330796]
本稿では,専門的相関を最小化するクロスエキスパートデコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・
D-MoEの有効性とデコリレーション原理を検証するために大規模な実験が行われた。
論文 参考訳(メタデータ) (2025-05-23T14:04:38Z) - CompeteSMoE -- Statistically Guaranteed Mixture of Experts Training via Competition [33.34992335920672]
SMoEの効果的なトレーニングは、最適以下のルーティングプロセスのため、依然として困難である、と我々は主張する。
本研究では,最も高い神経応答を持つ専門家にトークンをルーティングする新しいメカニズムであるコンペティションを提案する。
競合ポリシーを学習するためにルータを配置することで,大規模言語モデルを訓練する,単純かつ効果的なアルゴリズムであるCompeteSMoEを開発した。
論文 参考訳(メタデータ) (2025-05-19T17:24:26Z) - Unveiling Hidden Collaboration within Mixture-of-Experts in Large Language Models [5.211806751260724]
本稿では,専門家間の協調パターンを明らかにする階層型スパース辞書学習法を提案する。
また、コントリビューション・アウェア・エキスパート・プルーニング(CAEP)アルゴリズムを導入し、低コントリビューション・エキスパートを効果的に育成する。
論文 参考訳(メタデータ) (2025-04-16T04:06:15Z) - Finding Fantastic Experts in MoEs: A Unified Study for Expert Dropping Strategies and Observations [86.90549830760513]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
多様な視点から専門家の重要度を推定するためのベンチマークとして,MoE Experts Compression Suite (MC-Suite)を提案する。
我々は,SMoEsの指示追従能力が主に損なわれるという,実験的に検証された予想を提示する。
論文 参考訳(メタデータ) (2025-04-08T00:49:08Z) - S2MoE: Robust Sparse Mixture of Experts via Stochastic Learning [34.20340688374905]
SMOE(Sparse Mixture of Experts)は、入力トークンを特定の専門家にルーティングすることで、大規模な言語モデルの効率的なトレーニングを可能にする。
近年の研究では、この問題を軽減するためにルータの改善に重点を置いているが、既存のアプローチには2つの重要な制限がある。
本稿では,ロバスト学習(S2MoE)によるエキスパートのスパース混合(Sparse Mixture of Experts)という,決定論的および非決定論的入力から学習するために設計されたエキスパートの混合手法を提案する。
論文 参考訳(メタデータ) (2025-03-29T08:14:27Z) - On the effectiveness of discrete representations in sparse mixture of experts [33.809432499123275]
VQMoE(Vector-Quantized Mixture of Experts)と呼ばれる新しいアーキテクチャを提案する。
VQMoEは計算コストを増大させることなく、モデルキャパシティをスケールアップするための効果的なソリューションである。
VQMoEは,他のSMoEルーティング方式と比較して,ルータの28%の改善を実現している。
論文 参考訳(メタデータ) (2024-11-28T22:32:01Z) - Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models [57.582219834039506]
提案手法は,146億のパラメータと16名のエキスパートを伴い,高性能な多言語モデル(LLM)であるSkywork-MoEの開発において実現された訓練手法を紹介する。
これは、Skywork-13Bモデルの既存の密度の高いチェックポイントに基づいています。
論文 参考訳(メタデータ) (2024-06-03T03:58:41Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - CompeteSMoE -- Effective Training of Sparse Mixture of Experts via
Competition [52.2034494666179]
スパース・ミックス・オブ・エキスパート(SMoE)は、ネットワークの深さや幅を増大させる平均を超えた、モデルの複雑さをスケールアップする魅力的なソリューションを提供する。
本稿では,この表現崩壊の根本的な課題に対処する競合機構を提案する。
入力を最も高い神経応答を持つ専門家にのみルーティングすることにより、コンペティションが最適推定器と同じ収束率を持つことを示す。
論文 参考訳(メタデータ) (2024-02-04T15:17:09Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。