論文の概要: Improving Routing in Sparse Mixture of Experts with Graph of Tokens
- arxiv url: http://arxiv.org/abs/2505.00792v1
- Date: Thu, 01 May 2025 18:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.796358
- Title: Improving Routing in Sparse Mixture of Experts with Graph of Tokens
- Title(参考訳): トークングラフによるエキスパートの疎混合におけるルーティングの改善
- Authors: Tam Nguyen, Ngoc N. Tran, Khai Nguyen, Richard G. Baraniuk,
- Abstract要約: 確率的グラフィカルモデル(PGM)の観点からSMOE(Sparse Mixture of Experts)の限界を明らかにする。
本稿では,専門家選択時のトークン間の相互作用を考慮した新しい類似性認識(S)MoEを提案する。
我々は、様々なタスクやドメインでモデルを実証的に検証し、ルーティングのゆらぎを低減するための大幅な改善を示す。
- 参考スコア(独自算出の注目度): 32.46693871593765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Mixture of Experts (SMoE) has emerged as a key to achieving unprecedented scalability in deep learning. By activating only a small subset of parameters per sample, SMoE achieves an exponential increase in parameter counts while maintaining a constant computational overhead. However, SMoE models are susceptible to routing fluctuations--changes in the routing of a given input to its target expert--at the late stage of model training, leading to model non-robustness. In this work, we unveil the limitation of SMoE through the perspective of the probabilistic graphical model (PGM). Through this PGM framework, we highlight the independence in the expert-selection of tokens, which exposes the model to routing fluctuation and non-robustness. Alleviating this independence, we propose the novel Similarity-Aware (S)MoE, which considers interactions between tokens during expert selection. We then derive a new PGM underlying an (S)MoE-Attention block, going beyond just a single (S)MoE layer. Leveraging the token similarities captured by the attention matrix, we propose the innovative Attention-Aware (S)MoE, which employs the attention matrix to guide the routing of tokens to appropriate experts in (S)MoE. We theoretically prove that Similarity/Attention-Aware routing help reduce the entropy of expert selection, resulting in more stable token routing mechanisms. We empirically validate our models on various tasks and domains, showing significant improvements in reducing routing fluctuations, enhancing accuracy, and increasing model robustness over the baseline MoE-Transformer with token routing via softmax gating.
- Abstract(参考訳): SMOE(Sparse Mixture of Experts)は、ディープラーニングにおける前例のないスケーラビリティを実現する鍵として登場した。
サンプルあたりのパラメータの小さなサブセットのみを活性化することにより、SMoEは一定の計算オーバーヘッドを維持しながらパラメータ数を指数関数的に増加させる。
しかしながら、SMoEモデルは、所定の入力のルーティングを対象とするエキスパートに切り替える、ルーティングのゆらぎに影響を受けやすい。
本稿では,確率的グラフィカルモデル(PGM)の観点から,SMoEの限界を明らかにする。
このPGMフレームワークを通じて、トークンのエキスパート選択における独立性を強調し、ルーティングのゆらぎと非破壊性にモデルを公開する。
この独立性を緩和し、専門家選択中のトークン間の相互作用を考慮に入れた「Simisity-Aware (S)MoE」を提案する。
次に、(S)MoE-Attentionブロックの基盤となる新しいPGMを導出します。
本研究では,注意行列が捉えたトークン類似性を活用し,注意行列を用いてトークンのルーティングを(S)MoEの適切な専門家に案内する,革新的な注意認識(Attention-Aware, S)MoEを提案する。
理論的には、類似性/注意型ルーティングが専門家の選択のエントロピーを減少させ、より安定したトークンルーティング機構をもたらすことが証明される。
我々は,様々なタスクや領域におけるモデルの有効性を実証的に検証し,ルーティング変動の低減,精度の向上,およびソフトマックスゲーティングによるトークンルーティングによるベースラインMoE-Transformer上でのモデルロバスト性の向上を実現した。
関連論文リスト
- RouteMark: A Fingerprint for Intellectual Property Attribution in Routing-based Model Merging [69.2230254959204]
我々は,統合されたMoEモデルにおけるIP保護のためのフレームワークであるRouteMarkを提案する。
我々の重要な洞察は、タスク固有の専門家は、探索入力の下で安定かつ独特なルーティング行動を示すことである。
属性と改ざん検出のために,類似性に基づくマッチングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-08-03T14:51:58Z) - Attention, Please! Revisiting Attentive Probing for Masked Image Modeling [20.39513629593113]
我々は,冗長な投射を排除し,トレーニング可能なパラメータの数を減らし,従来のマルチヘッド注意よりも最大10$times$のスピードアップを実現する,効率的な探究機構(EP)を導入する。
EPはMIMをはるかに超えて様々な事前学習パラダイムを一般化し、解釈可能なアテンションマップを生成し、ローショットやレイヤーワイドの設定において強力なゲインを達成している。
論文 参考訳(メタデータ) (2025-06-11T21:10:26Z) - DynMoLE: Boosting Mixture of LoRA Experts Fine-Tuning with a Hybrid Routing Mechanism [5.988126768890861]
DynMoLEは、ルータの確率分布のTsallisエントロピーに基づいて、専門家の選択を動的に調整するハイブリッドルーティング戦略である。
我々はDynMoLEが大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-04-01T11:14:19Z) - Expert Race: A Flexible Routing Strategy for Scaling Diffusion Transformer with Mixture of Experts [33.39800923804871]
我々は、フレキシブルなルーティング戦略を持つ拡散変圧器のための新しいMoEモデルであるRace-DiT、Expert Raceを紹介する。
トークンとエキスパートが競争し、上位候補を選択することによって、モデルはエキスパートをクリティカルトークンに動的に割り当てることを学ぶ。
論文 参考訳(メタデータ) (2025-03-20T11:45:08Z) - DA-MoE: Towards Dynamic Expert Allocation for Mixture-of-Experts Models [1.4255659581428335]
そこで本稿では,DA-MoEモデルに対して,有効トークン重要度に基づく可変数のエキスパートを動的に割り当てる手法を提案する。
提案手法は,最新のトランスフォーマーベースのMoEモデルをGLUEベンチマークで一貫した性能向上を実現している。
論文 参考訳(メタデータ) (2024-09-10T17:36:15Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - MaskMoE: Boosting Token-Level Learning via Routing Mask in Mixture-of-Experts [38.15244333975921]
MaskMoEは、より包括的なトレーニングを行いながら、表現の多様性を維持することができる。
提案手法は,従来のMixture-of-Expertsモデルよりも,パープレキシティ(PPL)とダウンストリームタスク性能の両方で優れていた。
論文 参考訳(メタデータ) (2024-07-13T09:22:33Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [104.60508550106618]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。