論文の概要: Guiding the Experts: Semantic Priors for Efficient and Focused MoE Routing
- arxiv url: http://arxiv.org/abs/2505.18586v1
- Date: Sat, 24 May 2025 08:25:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.523
- Title: Guiding the Experts: Semantic Priors for Efficient and Focused MoE Routing
- Title(参考訳): エキスパートの指導: 効率的で集中型のMoEルーティングのためのセマンティックな優先順位
- Authors: Chengxi Min, Wei Wang, Yahui Liu, Weixin Ye, Enver Sangineto, Qi Wang, Yao Zhao,
- Abstract要約: 本研究では,Mixture-of-Experts(MoE)モデルの事前誘導型拡張戦略を提案する。
空間的に認識された補助的損失を導入し、専門家の活性化を促すことによって、前景のセマンティックな領域と整合する。
我々の手法はアーキテクチャの微調整しか必要とせず、一般的なSoft MoEフレームワークにシームレスに統合できる。
- 参考スコア(独自算出の注目度): 41.11176372688165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models have emerged as a promising direction for scaling vision architectures efficiently. Among them, Soft MoE improves training stability by assigning each token to all experts via continuous dispatch weights. However, current designs overlook the semantic structure which is implicitly encoded in these weights, resulting in suboptimal expert routing. In this paper, we discover that dispatch weights in Soft MoE inherently exhibit segmentation-like patterns but are not explicitly aligned with semantic regions. Motivated by this observation, we propose a foreground-guided enhancement strategy. Specifically, we introduce a spatially aware auxiliary loss that encourages expert activation to align with semantic foreground regions. To further reinforce this supervision, we integrate a lightweight LayerScale mechanism that improves information flow and stabilizes optimization in skip connections. Our method necessitates only minor architectural adjustments and can be seamlessly integrated into prevailing Soft MoE frameworks. Comprehensive experiments on ImageNet-1K and multiple smaller-scale classification benchmarks not only showcase consistent performance enhancements but also reveal more interpretable expert routing mechanisms.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、ビジョンアーキテクチャを効率的にスケーリングするための有望な方向として登場した。
その中でも、Soft MoEは、継続的なディスパッチウェイトを通じて、各トークンをすべての専門家に割り当てることで、トレーニングの安定性を改善している。
しかし、現在の設計では、これらの重みに暗黙的に符号化された意味構造を見落としており、結果として準最適専門家ルーティングが生じる。
本論文では,Soft MoEの重み付けが本質的にセグメンテーションのようなパターンを示すが,意味領域と明示的に一致しないことを示す。
本研究の目的は,前景誘導型強化戦略を提案することである。
具体的には,空間的に認識された補助的損失を導入し,専門家のアクティベーションを前景領域と整合させる。
この監視をさらに強化するために、情報フローを改善し、スキップ接続における最適化を安定化する軽量なLayerScaleメカニズムを統合する。
本手法はアーキテクチャの微調整しか必要とせず,Soft MoEフレームワークにシームレスに統合できる。
ImageNet-1Kと複数の小規模分類ベンチマークに関する総合的な実験は、一貫したパフォーマンス向上を示すだけでなく、より解釈可能な専門家のルーティング機構も明らかにしている。
関連論文リスト
- Mixture of Group Experts for Learning Invariant Representations [25.935653652324532]
わずかに活性化されたMixture-of-Experts (MoE)モデルはトークン当たりの一貫した計算コストを維持しながらパラメータ数を効果的に増加させる。
スパース表現にインスパイアされた上位$kのルーティングによるバニラMOEの新しい視点を示す。
グループエキスパートの混合(Mixture of Group Experts, MOGE)と呼ばれるトップ$kのルーティング入力に対するグループスパース正規化手法を提案する。
論文 参考訳(メタデータ) (2025-04-12T15:58:02Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - Accelerating MoE Model Inference with Expert Sharding [1.4733737463429546]
専門家の混合モデル(MoE)は、言語モデリングにおいて最先端の結果を得るが、不均衡なトークンルーティングと通信オーバーヘッドにより、非効率なハードウェア利用に悩まされる。
我々は,MoEエキスパートのテンソルシャーディングを通じて,完全な負荷分散を実現する推論システムであるMoEShardを紹介する。
論文 参考訳(メタデータ) (2025-03-11T14:15:01Z) - Mixture of Experts Made Intrinsically Interpretable [34.36996159677674]
我々は,emphintrinsically interpretableとして設計されたMixture-of-Experts (MoE)言語モデルである textbfMoE-X を提案する。
我々のアプローチは、言語モデルにおいて、スパースアクティベーションを持つより広いネットワークが解釈可能な要因を捉える傾向にあるという観察に動機づけられている。
MoE-X は GPT-2 よりもパープレキシティが良く、解釈性はスパースオートエンコーダ (SAE) ベースのアプローチを超えている。
論文 参考訳(メタデータ) (2025-03-05T17:40:54Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Searching for Efficient Linear Layers over a Continuous Space of Structured Matrices [88.33936714942996]
アインシュタイン和を通じて表現可能なすべての線形作用素の探索を可能にする統一フレームワークを提案する。
計算-最適スケーリング法則の違いは主に少数の変数によって支配されていることを示す。
そこで,Mixture-of-Experts (MoE) は,注目ブロックの投影を含む,モデルのすべての線形層におけるMoEを学習する。
論文 参考訳(メタデータ) (2024-10-03T00:44:50Z) - Expert-Token Resonance MoE: Bidirectional Routing with Efficiency Affinity-Driven Active Selection [16.062265609569003]
Mixture-of-Experts (MoE)アーキテクチャは、大規模言語モデル(LLM)のパラダイムシフトアプローチとして登場した。
本稿では,(1)軽量計算を用いた効率的なルーティング機構,(2)エキスパートとトークンの共振を利用した適応的双方向選択機構,(3)動的トークン分布解析に基づくエキスパートキャパシティの下位境界を決定するモジュールを提案する。
論文 参考訳(メタデータ) (2024-05-24T02:50:44Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。