論文の概要: Improving Routing in Sparse Mixture of Experts with Graph of Tokens
- arxiv url: http://arxiv.org/abs/2505.00792v1
- Date: Thu, 01 May 2025 18:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.796358
- Title: Improving Routing in Sparse Mixture of Experts with Graph of Tokens
- Title(参考訳): トークングラフによるエキスパートの疎混合におけるルーティングの改善
- Authors: Tam Nguyen, Ngoc N. Tran, Khai Nguyen, Richard G. Baraniuk,
- Abstract要約: 確率的グラフィカルモデル(PGM)の観点からSMOE(Sparse Mixture of Experts)の限界を明らかにする。
本稿では,専門家選択時のトークン間の相互作用を考慮した新しい類似性認識(S)MoEを提案する。
我々は、様々なタスクやドメインでモデルを実証的に検証し、ルーティングのゆらぎを低減するための大幅な改善を示す。
- 参考スコア(独自算出の注目度): 32.46693871593765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Mixture of Experts (SMoE) has emerged as a key to achieving unprecedented scalability in deep learning. By activating only a small subset of parameters per sample, SMoE achieves an exponential increase in parameter counts while maintaining a constant computational overhead. However, SMoE models are susceptible to routing fluctuations--changes in the routing of a given input to its target expert--at the late stage of model training, leading to model non-robustness. In this work, we unveil the limitation of SMoE through the perspective of the probabilistic graphical model (PGM). Through this PGM framework, we highlight the independence in the expert-selection of tokens, which exposes the model to routing fluctuation and non-robustness. Alleviating this independence, we propose the novel Similarity-Aware (S)MoE, which considers interactions between tokens during expert selection. We then derive a new PGM underlying an (S)MoE-Attention block, going beyond just a single (S)MoE layer. Leveraging the token similarities captured by the attention matrix, we propose the innovative Attention-Aware (S)MoE, which employs the attention matrix to guide the routing of tokens to appropriate experts in (S)MoE. We theoretically prove that Similarity/Attention-Aware routing help reduce the entropy of expert selection, resulting in more stable token routing mechanisms. We empirically validate our models on various tasks and domains, showing significant improvements in reducing routing fluctuations, enhancing accuracy, and increasing model robustness over the baseline MoE-Transformer with token routing via softmax gating.
- Abstract(参考訳): SMOE(Sparse Mixture of Experts)は、ディープラーニングにおける前例のないスケーラビリティを実現する鍵として登場した。
サンプルあたりのパラメータの小さなサブセットのみを活性化することにより、SMoEは一定の計算オーバーヘッドを維持しながらパラメータ数を指数関数的に増加させる。
しかしながら、SMoEモデルは、所定の入力のルーティングを対象とするエキスパートに切り替える、ルーティングのゆらぎに影響を受けやすい。
本稿では,確率的グラフィカルモデル(PGM)の観点から,SMoEの限界を明らかにする。
このPGMフレームワークを通じて、トークンのエキスパート選択における独立性を強調し、ルーティングのゆらぎと非破壊性にモデルを公開する。
この独立性を緩和し、専門家選択中のトークン間の相互作用を考慮に入れた「Simisity-Aware (S)MoE」を提案する。
次に、(S)MoE-Attentionブロックの基盤となる新しいPGMを導出します。
本研究では,注意行列が捉えたトークン類似性を活用し,注意行列を用いてトークンのルーティングを(S)MoEの適切な専門家に案内する,革新的な注意認識(Attention-Aware, S)MoEを提案する。
理論的には、類似性/注意型ルーティングが専門家の選択のエントロピーを減少させ、より安定したトークンルーティング機構をもたらすことが証明される。
我々は,様々なタスクや領域におけるモデルの有効性を実証的に検証し,ルーティング変動の低減,精度の向上,およびソフトマックスゲーティングによるトークンルーティングによるベースラインMoE-Transformer上でのモデルロバスト性の向上を実現した。
関連論文リスト
- DynMoLE: Boosting Mixture of LoRA Experts Fine-Tuning with a Hybrid Routing Mechanism [5.988126768890861]
DynMoLEは、ルータの確率分布のTsallisエントロピーに基づいて、専門家の選択を動的に調整するハイブリッドルーティング戦略である。
我々はDynMoLEが大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-04-01T11:14:19Z) - Expert Race: A Flexible Routing Strategy for Scaling Diffusion Transformer with Mixture of Experts [33.39800923804871]
我々は、フレキシブルなルーティング戦略を持つ拡散変圧器のための新しいMoEモデルであるRace-DiT、Expert Raceを紹介する。
トークンとエキスパートが競争し、上位候補を選択することによって、モデルはエキスパートをクリティカルトークンに動的に割り当てることを学ぶ。
論文 参考訳(メタデータ) (2025-03-20T11:45:08Z) - DA-MoE: Towards Dynamic Expert Allocation for Mixture-of-Experts Models [1.4255659581428335]
そこで本稿では,DA-MoEモデルに対して,有効トークン重要度に基づく可変数のエキスパートを動的に割り当てる手法を提案する。
提案手法は,最新のトランスフォーマーベースのMoEモデルをGLUEベンチマークで一貫した性能向上を実現している。
論文 参考訳(メタデータ) (2024-09-10T17:36:15Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - MaskMoE: Boosting Token-Level Learning via Routing Mask in Mixture-of-Experts [38.15244333975921]
MaskMoEは、より包括的なトレーニングを行いながら、表現の多様性を維持することができる。
提案手法は,従来のMixture-of-Expertsモデルよりも,パープレキシティ(PPL)とダウンストリームタスク性能の両方で優れていた。
論文 参考訳(メタデータ) (2024-07-13T09:22:33Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [104.60508550106618]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。