論文の概要: Understanding the Mixture-of-Experts with Nadaraya-Watson Kernel
- arxiv url: http://arxiv.org/abs/2509.25913v1
- Date: Tue, 30 Sep 2025 08:04:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.061349
- Title: Understanding the Mixture-of-Experts with Nadaraya-Watson Kernel
- Title(参考訳): Nadaraya-Watsonカーネルによる実験の混合を理解する
- Authors: Chuanyang Zheng, Jiankai Sun, Yihang Gao, Enze Xie, Yuehao Wang, Peihao Wang, Ting Xu, Matthew Chang, Liliang Ren, Jingyao Li, Jing Xiong, Kashif Rasul, Mac Schwager, Anderson Schneider, Zhangyang Wang, Yuriy Nevmyvaka,
- Abstract要約: Mixture-of-Experts (MoE)は最近の最先端の大規模言語モデル(LLM)の基盤となっている。
伝統的に、MoEはエキスパート出力を集約するためにルータスコア関数として$mathrmSoftmax$に依存している。
mathrmSoftmax$の代替として,textbfzero-additional-cost Kernel Router with Normalization (KERN)を提案する。
- 参考スコア(独自算出の注目度): 87.60286115014833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) has become a cornerstone in recent state-of-the-art large language models (LLMs). Traditionally, MoE relies on $\mathrm{Softmax}$ as the router score function to aggregate expert output, a designed choice that has persisted from the earliest MoE models to modern LLMs, and is now widely regarded as standard practice. However, the necessity of using $\mathrm{Softmax}$ to project router weights into a probability simplex remains an unchallenged assumption rather than a principled design choice. In this work, we first revisit the classical Nadaraya-Watson regression and observe that MoE shares the same mathematical formulation as Nadaraya-Watson regression. Furthermore, we show that both feed-forward neural network (FFN) and MoE can be interpreted as a special case of Nadaraya-Watson regression, where the kernel function corresponds to the input neurons of the output layer. Motivated by these insights, we propose the \textbf{zero-additional-cost} Kernel Inspired Router with Normalization (KERN), an FFN-style router function, as an alternative to $\mathrm{Softmax}$. We demonstrate that this router generalizes both $\mathrm{Sigmoid}$- and $\mathrm{Softmax}$-based routers. \textbf{Based on empirical observations and established practices in FFN implementation, we recommend the use of $\mathrm{ReLU}$ activation and $\ell_2$-normalization in $\mathrm{KERN}$ router function.} Comprehensive experiments in MoE and LLM validate the effectiveness of the proposed FFN-style router function \methodNorm.
- Abstract(参考訳): Mixture-of-Experts (MoE)は最近の最先端の大規模言語モデル(LLM)の基盤となっている。
伝統的に、MoEはルータスコア関数として$\mathrm{Softmax}$に依存しており、これは初期のMoEモデルから現代のLCMまで継続する設計上の選択であり、現在では標準的慣行とみなされている。
しかし、ルータ重みを確率的単純度に射影するために$\mathrm{Softmax}$を使用する必要性は、原則的な設計選択というよりは無意味な仮定のままである。
本研究では、まず古典的なナダラヤ・ワトソン回帰を再検討し、MoEがナダラヤ・ワトソン回帰と同じ数学的定式化を共有することを観察する。
さらに, フィードフォワードニューラルネットワーク(FFN)とMoEは, カーネル関数が出力層の入力ニューロンに対応するナダラヤ・ワトソン回帰(Nadaraya-Watson regression)の特別な場合と解釈できることを示した。
これらの知見により,FFN型ルータ関数であるKERN(textbf{zero-additional-cost} Kernel Inspired Router)を$\mathrm{Softmax}$の代替として提案する。
このルータは、$\mathrm{Sigmoid}$-と$\mathrm{Softmax}$-ベースルータの両方を一般化する。
経験的観測とFFN実装の確立した実践に基づいて、$\mathrm{ReLU}$Activation と $\ell_2$-normalization in $\mathrm{KERN}$ router function を推奨する。
} MoE と LLM の総合実験により提案した FFN スタイルのルータ関数 \methodNorm の有効性が検証された。
関連論文リスト
- VAE-DNN: Energy-Efficient Trainable-by-Parts Surrogate Model For Parametric Partial Differential Equations [49.1574468325115]
本稿では, 前方および逆パラメータ化非線形偏微分方程式を解くための, トレーニング可能な各部分サロゲートモデルを提案する。
提案手法はエンコーダを用いて高次元の入力$y(bmx)$を低次元の潜在空間である$bmmu_bmphi_y$に還元する。
完全連結ニューラルネットワークを用いて、Pの潜伏空間に$bmmu_bmphi_y$、$bmmu_bmphi_h$をマッピングする。
論文 参考訳(メタデータ) (2025-08-05T18:37:32Z) - ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing [28.73697327316267]
計算予算を増大させることなく、モデルキャパシティをスケールアップするために、緩やかに活性化されたMixture-of-Experts (MoE)モデルが広く採用されている。
我々は,従来のTopK+Softmaxルーティングの簡易かつ効果的なドロップイン置換を提供する,完全に微分可能なMoEアーキテクチャであるReMoEを提案する。
ReMoEは、さまざまなモデルサイズ、専門家数、粒度のレベルにおいて、バニラTopKのMoEを一貫して上回る。
論文 参考訳(メタデータ) (2024-12-19T10:21:20Z) - Enhanced Feature Learning via Regularisation: Integrating Neural Networks and Kernel Methods [0.0]
我々は,ソボレフ関数の期待値として,データの任意の一次元射影に対する期待値とみなす。
このフレームワークはカーネルリッジ回帰に似ており、カーネルは$mathbbE_w (k(B)(wtop x,wtop xprime))$で、$k(B)(a,b) := min(|a|, |b|)mathds1_ab>0$で、プロジェクションの$w$は学習される。
論文 参考訳(メタデータ) (2024-07-24T13:46:50Z) - A Unified Scheme of ResNet and Softmax [8.556540804058203]
回帰問題を理論的に解析する: $| langle exp(Ax) + A x, bf 1_n rangle-1 ( exp(Ax) + Ax )
この回帰問題は、ソフトマックス回帰とResNetを組み合わせた統一的なスキームである。
論文 参考訳(メタデータ) (2023-09-23T21:41:01Z) - Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient
for Convolutional Neural Networks [74.68583356645276]
ディープラーニングでは、Mixix-of-experts(MoE)が、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化する。
我々は,pMoEが適切な一般化を実現するために,必要なトレーニングサンプル数を確実に削減できることを初めて示す。
論文 参考訳(メタデータ) (2023-06-07T00:16:10Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。