論文の概要: ERMoE: Eigen-Reparameterized Mixture-of-Experts for Stable Routing and Interpretable Specialization
- arxiv url: http://arxiv.org/abs/2511.10971v1
- Date: Fri, 14 Nov 2025 05:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.439841
- Title: ERMoE: Eigen-Reparameterized Mixture-of-Experts for Stable Routing and Interpretable Specialization
- Title(参考訳): ERMoE:安定なルーティングと解釈可能なスペシャライゼーションのための固有パラメータ混合
- Authors: Anzhe Cheng, Shukai Duan, Shixuan Li, Chenzhong Yin, Mingxi Cheng, Heng Ping, Tamoghna Chattopadhyay, Sophia I Thomopoulos, Shahin Nazarian, Paul Thompson, Paul Bogdan,
- Abstract要約: ERMoEは、学習したゲーティングログを"Eigenbasis Score"に置き換えるスパースなMoE変換器である
ERMoE は ImageNet 分類と クロスモーダル画像テキスト検索ベンチマークにおける最先端の精度を実現する。
3D MRI変異体(ERMoE-ba)は、脳年齢予測の精度を7%以上改善し、解釈可能な専門家の専門化をもたらす。
- 参考スコア(独自算出の注目度): 13.182475975397251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures expand model capacity by sparsely activating experts but face two core challenges: misalignment between router logits and each expert's internal structure leads to unstable routing and expert underutilization, and load imbalances create straggler bottlenecks. Standard solutions, such as auxiliary load-balancing losses, can reduce load disparities but often weaken expert specialization and hurt downstream performance. To address these issues, we propose ERMoE, a sparse MoE transformer that reparameterizes each expert in a learned orthonormal eigenbasis and replaces learned gating logits with an "Eigenbasis Score", defined as the cosine similarity between input features and an expert's basis. This content-aware routing ties token assignments directly to experts' representation spaces, stabilizing utilization and promoting interpretable specialization without sacrificing sparsity. Crucially, ERMoE removes the need for explicit balancing losses and avoids the interfering gradients they introduce. We show that ERMoE achieves state-of-the-art accuracy on ImageNet classification and cross-modal image-text retrieval benchmarks (e.g., COCO, Flickr30K), while naturally producing flatter expert load distributions. Moreover, a 3D MRI variant (ERMoE-ba) improves brain age prediction accuracy by more than 7\% and yields anatomically interpretable expert specializations. ERMoE thus introduces a new architectural principle for sparse expert models that directly addresses routing instabilities and enables improved performance with scalable, interpretable specialization.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、専門家をわずかに活性化することでモデルのキャパシティを拡大するが、ルータロジットと各専門家の内部構造とのミスアライメントは不安定なルーティングと専門家のアンテリゼーションをもたらし、ロード不均衡はストラグラーボトルネックを生み出す。
補助負荷分散損失のような標準的なソリューションは、負荷格差を減らすことができるが、専門家の専門性を弱め、下流のパフォーマンスを損なうことも多い。
これらの問題に対処するため、ERMoEは、学習された正規固有ベイジにおいて各専門家を再パラメータ化し、学習したゲーティングロジットを「固有ベイジスコア」に置き換えるスパースMOE変換器を提案する。
このコンテンツ対応ルーティングは、トークンの割り当てを専門家の表現空間に直接結び付け、利用を安定化させ、スパーシを犠牲にすることなく解釈可能な特殊化を促進する。
重要なことは、ERMoEは明示的なバランスの取れない損失を排除し、導入する干渉勾配を避ける。
ERMoEは,画像ネット分類および画像テキスト間検索ベンチマーク(例えばCOCO,Flickr30K)の最先端の精度を実現し,フラットな専門家負荷分布を自然に生成することを示した。
さらに、3D MRI変異体(ERMoE-ba)は、脳年齢予測精度を7%以上改善し、解剖学的に解釈可能な専門家の専門化をもたらす。
ERMoEは、ルーティングの不安定性に直接対処し、スケーラブルで解釈可能な特殊化によるパフォーマンスの向上を可能にする、スパースエキスパートモデルのための新しいアーキテクチャ原則を導入する。
関連論文リスト
- Beyond Redundancy: Diverse and Specialized Multi-Expert Sparse Autoencoder [59.89996751196727]
スパースオートエンコーダ(SAE)は、大規模な言語モデルを解釈するための強力なツールとして登場した。
SAEの隠蔽層は、空間的制約を満たすために高い次元性を持ち、結果として禁止的なトレーニングと推論コストをもたらす。
近年のMixture of Experts (MoE) アプローチは、SAEsによってゲートアクティベーションを持つより狭い専門家ネットワークにこの問題に対処しようとしている。
本稿では,(1)専門化を促進するために意味的に重み付けされた専門家サブセットを同時に関与する複数の専門家活性化,(2)適応的な高周波スケーリングによって多様性を高める特徴スケーリングという2つの重要なイノベーションを提案する。
論文 参考訳(メタデータ) (2025-11-07T22:19:34Z) - Dropping Experts, Recombining Neurons: Retraining-Free Pruning for Sparse Mixture-of-Experts LLMs [54.95810313530111]
DERNは、専門家のプルーニングと再構築のためのタスク非依存でトレーニングなしのフレームワークである。
コモンセンス推論やMMLUベンチマークでは、50%のエキスパートスパシティでパフォーマンスを5%以上向上させる。
論文 参考訳(メタデータ) (2025-09-12T16:09:39Z) - Load Balancing Mixture of Experts with Similarity Preserving Routers [30.279616888339543]
Sparse Mixture of Experts (MoE)モデルは、大規模なニューラルネットワークをトレーニングするためのスケーラブルで効率的なアーキテクチャを提供する。
トークン単位のリレーショナル構造を保持する新しいロードバランシング損失を導入する。
その結果, ルータの損失は36%, 収束速度は36%向上し, 冗長性が低下することがわかった。
論文 参考訳(メタデータ) (2025-06-16T22:22:59Z) - Advancing Expert Specialization for Better MoE [22.88847592702946]
Mixture-of-Experts (MoE)モデルは、入力毎に専門家のサブセットだけを活性化することにより、大きな言語モデル(LLM)の効率的なスケーリングを可能にする。
一般的に使用される補助負荷分散損失は、しばしば専門家の重複と過度に均一なルーティングをもたらす。
本稿では,2つの相補的目的を取り入れた,シンプルで効果的な解を提案する。
論文 参考訳(メタデータ) (2025-05-28T13:09:47Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。