論文の概要: EMoE: Eigenbasis-Guided Routing for Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2601.12137v1
- Date: Sat, 17 Jan 2026 18:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.478424
- Title: EMoE: Eigenbasis-Guided Routing for Mixture-of-Experts
- Title(参考訳): EMoE:Eigenbasis-Guided Routing for Mixture-of-Experts
- Authors: Anzhe Cheng, Shukai Duan, Shixuan Li, Chenzhong Yin, Mingxi Cheng, Shahin Nazarian, Paul Thompson, Paul Bogdan,
- Abstract要約: Eigen-Mixture-of-Experts (EMoE) は、学習された正規化特殊化固有ベイズに基づくルーティング機構を利用する新しいアーキテクチャである。
EMoEは、この共有固有基底に入力トークンを投影し、特徴空間の主成分とのアライメントに基づいてそれらをルーティングする。
この原則により、データの幾何学的分割は、本質的にバランスのとれた専門家の利用と多様な専門専門家の開発を促進する。
- 参考スコア(独自算出の注目度): 13.726411744252509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The relentless scaling of deep learning models has led to unsustainable computational demands, positioning Mixture-of-Experts (MoE) architectures as a promising path towards greater efficiency. However, MoE models are plagued by two fundamental challenges: 1) a load imbalance problem known as the``rich get richer" phenomenon, where a few experts are over-utilized, and 2) an expert homogeneity problem, where experts learn redundant representations, negating their purpose. Current solutions typically employ an auxiliary load-balancing loss that, while mitigating imbalance, often exacerbates homogeneity by enforcing uniform routing at the expense of specialization. To resolve this, we introduce the Eigen-Mixture-of-Experts (EMoE), a novel architecture that leverages a routing mechanism based on a learned orthonormal eigenbasis. EMoE projects input tokens onto this shared eigenbasis and routes them based on their alignment with the principal components of the feature space. This principled, geometric partitioning of data intrinsically promotes both balanced expert utilization and the development of diverse, specialized experts, all without the need for a conflicting auxiliary loss function. Our code is publicly available at https://github.com/Belis0811/EMoE.
- Abstract(参考訳): ディープラーニングモデルの絶え間ないスケーリングは、持続不可能な計算要求をもたらし、Mixture-of-Experts(MoE)アーキテクチャをより大きな効率への有望な道として位置づけている。
しかし、MoEモデルは2つの根本的な課題に悩まされている。
1) 少数の専門家が過剰に活用されている「リッチ・ゲット・リッチ」現象として知られる負荷不均衡問題。
2) 専門的均質性の問題では, 専門家が冗長表現を学習し, 目的を否定する。
現在の解は、通常、補助的な負荷分散損失を用いるが、不均衡を緩和する一方で、特殊化を犠牲にして均一なルーティングを強制することで、しばしば均一性を高める。
これを解決するために、学習された正規固有ベイジに基づくルーティング機構を利用する新しいアーキテクチャであるEigen-Mixture-of-Experts (EMoE)を導入する。
EMoEは、この共有固有基底に入力トークンを投影し、特徴空間の主成分とのアライメントに基づいてそれらをルーティングする。
この原則により、データの幾何学的分割は、本質的にバランスの取れた専門家の活用と多様な専門専門家の育成の両方を促進するが、いずれも矛盾する補助的損失関数は不要である。
私たちのコードはhttps://github.com/Belis0811/EMoEで公開されています。
関連論文リスト
- ERMoE: Eigen-Reparameterized Mixture-of-Experts for Stable Routing and Interpretable Specialization [13.182475975397251]
ERMoEは、学習したゲーティングログを"Eigenbasis Score"に置き換えるスパースなMoE変換器である
ERMoE は ImageNet 分類と クロスモーダル画像テキスト検索ベンチマークにおける最先端の精度を実現する。
3D MRI変異体(ERMoE-ba)は、脳年齢予測の精度を7%以上改善し、解釈可能な専門家の専門化をもたらす。
論文 参考訳(メタデータ) (2025-11-14T05:31:37Z) - Advancing Expert Specialization for Better MoE [22.88847592702946]
Mixture-of-Experts (MoE)モデルは、入力毎に専門家のサブセットだけを活性化することにより、大きな言語モデル(LLM)の効率的なスケーリングを可能にする。
一般的に使用される補助負荷分散損失は、しばしば専門家の重複と過度に均一なルーティングをもたらす。
本稿では,2つの相補的目的を取り入れた,シンプルで効果的な解を提案する。
論文 参考訳(メタデータ) (2025-05-28T13:09:47Z) - Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.46313715427928]
複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。
この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。
提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文 参考訳(メタデータ) (2024-11-27T15:58:07Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。