論文の概要: EMoE: Eigenbasis-Guided Routing for Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2601.12137v1
- Date: Sat, 17 Jan 2026 18:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.478424
- Title: EMoE: Eigenbasis-Guided Routing for Mixture-of-Experts
- Title(参考訳): EMoE:Eigenbasis-Guided Routing for Mixture-of-Experts
- Authors: Anzhe Cheng, Shukai Duan, Shixuan Li, Chenzhong Yin, Mingxi Cheng, Shahin Nazarian, Paul Thompson, Paul Bogdan,
- Abstract要約: Eigen-Mixture-of-Experts (EMoE) は、学習された正規化特殊化固有ベイズに基づくルーティング機構を利用する新しいアーキテクチャである。
EMoEは、この共有固有基底に入力トークンを投影し、特徴空間の主成分とのアライメントに基づいてそれらをルーティングする。
この原則により、データの幾何学的分割は、本質的にバランスのとれた専門家の利用と多様な専門専門家の開発を促進する。
- 参考スコア(独自算出の注目度): 13.726411744252509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The relentless scaling of deep learning models has led to unsustainable computational demands, positioning Mixture-of-Experts (MoE) architectures as a promising path towards greater efficiency. However, MoE models are plagued by two fundamental challenges: 1) a load imbalance problem known as the``rich get richer" phenomenon, where a few experts are over-utilized, and 2) an expert homogeneity problem, where experts learn redundant representations, negating their purpose. Current solutions typically employ an auxiliary load-balancing loss that, while mitigating imbalance, often exacerbates homogeneity by enforcing uniform routing at the expense of specialization. To resolve this, we introduce the Eigen-Mixture-of-Experts (EMoE), a novel architecture that leverages a routing mechanism based on a learned orthonormal eigenbasis. EMoE projects input tokens onto this shared eigenbasis and routes them based on their alignment with the principal components of the feature space. This principled, geometric partitioning of data intrinsically promotes both balanced expert utilization and the development of diverse, specialized experts, all without the need for a conflicting auxiliary loss function. Our code is publicly available at https://github.com/Belis0811/EMoE.
- Abstract(参考訳): ディープラーニングモデルの絶え間ないスケーリングは、持続不可能な計算要求をもたらし、Mixture-of-Experts(MoE)アーキテクチャをより大きな効率への有望な道として位置づけている。
しかし、MoEモデルは2つの根本的な課題に悩まされている。
1) 少数の専門家が過剰に活用されている「リッチ・ゲット・リッチ」現象として知られる負荷不均衡問題。
2) 専門的均質性の問題では, 専門家が冗長表現を学習し, 目的を否定する。
現在の解は、通常、補助的な負荷分散損失を用いるが、不均衡を緩和する一方で、特殊化を犠牲にして均一なルーティングを強制することで、しばしば均一性を高める。
これを解決するために、学習された正規固有ベイジに基づくルーティング機構を利用する新しいアーキテクチャであるEigen-Mixture-of-Experts (EMoE)を導入する。
EMoEは、この共有固有基底に入力トークンを投影し、特徴空間の主成分とのアライメントに基づいてそれらをルーティングする。
この原則により、データの幾何学的分割は、本質的にバランスの取れた専門家の活用と多様な専門専門家の育成の両方を促進するが、いずれも矛盾する補助的損失関数は不要である。
私たちのコードはhttps://github.com/Belis0811/EMoEで公開されています。
関連論文リスト
- A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs [64.8510381475827]
SMOE(Sparse Mixture-of-Experts)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われている。
SMoEモデルは専門家間で厳しい負荷不均衡に悩まされることが多く、専門家のごく一部がほとんどのトークンを受け取り、他のモデルは未利用である。
推定中のエキスパートルーティングの体系的解析を行い, (i) 負荷不均衡が持続し, バッチサイズが大きくなる, (ii) 選択頻度が, 専門家の重要度を確実に反映しない, (iii) 専門家の全体負荷と重要性を, キャリブレーションセットを用いて推定できる,という3つの知見を同定する。
論文 参考訳(メタデータ) (2026-02-23T15:11:16Z) - Synergistic Intra- and Cross-Layer Regularization Losses for MoE Expert Specialization [10.669680236190432]
そこで本研究では,MoEの特殊化とルーティング効率を向上させる2つのプラグアンドプレイ正規化損失を提案する。
両方の損失をMegatron-LMモジュールとして実装する。
論文 参考訳(メタデータ) (2026-02-15T14:19:12Z) - ERMoE: Eigen-Reparameterized Mixture-of-Experts for Stable Routing and Interpretable Specialization [13.182475975397251]
ERMoEは、学習したゲーティングログを"Eigenbasis Score"に置き換えるスパースなMoE変換器である
ERMoE は ImageNet 分類と クロスモーダル画像テキスト検索ベンチマークにおける最先端の精度を実現する。
3D MRI変異体(ERMoE-ba)は、脳年齢予測の精度を7%以上改善し、解釈可能な専門家の専門化をもたらす。
論文 参考訳(メタデータ) (2025-11-14T05:31:37Z) - Decoding Knowledge Attribution in Mixture-of-Experts: A Framework of Basic-Refinement Collaboration and Efficiency Analysis [20.528711033969035]
MoEモデルは、"ミッドアクティベーション、遅延増幅"パターンにより、層ごとの効率を37%向上させる。
これらの洞察はMoEの解釈可能性を高め、効率性、特殊化、堅牢性のバランスをとるための原則を提供する。
論文 参考訳(メタデータ) (2025-05-30T13:40:51Z) - Advancing Expert Specialization for Better MoE [22.88847592702946]
Mixture-of-Experts (MoE)モデルは、入力毎に専門家のサブセットだけを活性化することにより、大きな言語モデル(LLM)の効率的なスケーリングを可能にする。
一般的に使用される補助負荷分散損失は、しばしば専門家の重複と過度に均一なルーティングをもたらす。
本稿では,2つの相補的目的を取り入れた,シンプルで効果的な解を提案する。
論文 参考訳(メタデータ) (2025-05-28T13:09:47Z) - Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.46313715427928]
複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。
この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。
提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文 参考訳(メタデータ) (2024-11-27T15:58:07Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。