論文の概要: Rethinking Multinomial Logistic Mixture of Experts with Sigmoid Gating Function
- arxiv url: http://arxiv.org/abs/2602.01466v1
- Date: Sun, 01 Feb 2026 22:19:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.800022
- Title: Rethinking Multinomial Logistic Mixture of Experts with Sigmoid Gating Function
- Title(参考訳): シグモイドゲーティング機能を持つ専門家の多項ロジスティックミックスの再考
- Authors: Tuan Minh Pham, Thinh Cao, Viet Nguyen, Huy Nguyen, Nhat Ho, Alessandro Rinaldo,
- Abstract要約: また,シグモイドゲートは,パラメータと専門家推定の双方において,ソフトマックスゲートよりも低い値を示した。
温度をシグモイドゲートに組み込むと,温度とゲーティングパラメータの内在的な相互作用により指数律のサンプルが複雑になることがわかった。
- 参考スコア(独自算出の注目度): 84.47276999832135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The sigmoid gate in mixture-of-experts (MoE) models has been empirically shown to outperform the softmax gate across several tasks, ranging from approximating feed-forward networks to language modeling. Additionally, recent efforts have demonstrated that the sigmoid gate is provably more sample-efficient than its softmax counterpart under regression settings. Nevertheless, there are three notable concerns that have not been addressed in the literature, namely (i) the benefits of the sigmoid gate have not been established under classification settings; (ii) existing sigmoid-gated MoE models may not converge to their ground-truth; and (iii) the effects of a temperature parameter in the sigmoid gate remain theoretically underexplored. To tackle these open problems, we perform a comprehensive analysis of multinomial logistic MoE equipped with a modified sigmoid gate to ensure model convergence. Our results indicate that the sigmoid gate exhibits a lower sample complexity than the softmax gate for both parameter and expert estimation. Furthermore, we find that incorporating a temperature into the sigmoid gate leads to a sample complexity of exponential order due to an intrinsic interaction between the temperature and gating parameters. To overcome this issue, we propose replacing the vanilla inner product score in the gating function with a Euclidean score that effectively removes that interaction, thereby substantially improving the sample complexity to a polynomial order.
- Abstract(参考訳): 混合実験(MoE)モデルにおけるシグモイドゲートは、フィードフォワードネットワークの近似から言語モデリングまで、様々なタスクにおいてソフトマックスゲートより優れていることが実証的に示されている。
さらに、最近の研究により、シグモイドゲートは回帰条件下でのソフトマックスよりも明らかに試料効率が高いことが示されている。
それにもかかわらず、文献で言及されていない3つの重要な懸念がある。
(i)シグモイドゲートの利点は、分類上確立されていない。
(ii)既存のシグモイドゲート型MoEモデルは、その基底構造に収束しないかもしれない。
3)シグモイドゲートにおける温度パラメータの影響は理論的には未解明のままである。
これらの開放的な問題に対処するため、モデル収束を保証するため、修正されたシグモノイドゲートを備えた多項ロジスティックMoEを包括的に解析する。
以上の結果から,シグモイドゲートはソフトマックスゲートよりも試料の複雑さが低いことが示唆された。
さらに,シグモイドゲートに温度を組み込むと,温度とゲーティングパラメータの内在的相互作用により指数律のサンプルが複雑になることがわかった。
この問題を解決するため,ゲーティング関数のバニラ内積スコアをユークリッドスコアに置き換えることを提案する。
関連論文リスト
- Improving Minimax Estimation Rates for Contaminated Mixture of Multinomial Logistic Experts via Expert Heterogeneity [49.809923981964715]
凍結したエキスパートとして機能する事前訓練されたモデルを、新しいタスクを学ぶためにトレーニング可能なエキスパートとして機能するアダプタモデルに統合するトランスファー学習手法によって、汚染された専門家の混合(MoE)が動機付けられる。
本研究は, 地絡パラメータがサンプルサイズによって異なる困難な条件下で, パラメータを推定するための一様収束率を特徴付ける。
また、対応するミニマックス下限を定め、これらのレートがミニマックス最適であることを保証する。
論文 参考訳(メタデータ) (2026-01-31T23:45:50Z) - Dendrograms of Mixing Measures for Softmax-Gated Gaussian Mixture of Experts: Consistency without Model Sweeps [41.371172458797524]
ゲーティングパラメータの共通翻訳、固有のゲート-エキスパート相互作用、およびタイトな数値-デノミネータ結合までの不特定性に対処する。
モデル選択には, 最適なパラメータ率を得る専門家の数を一貫したスイープフリーセレクタとして, デンドログラム誘導SGMoEを適応させる。
干ばつを識別できるトウモロコシの形質のデータセット上で、私たちのデンドログラム誘導SGMoEは2人の専門家を選別し、明確な混合階層を公開し、確率を早期に安定化し、解釈可能な遺伝子型フェノタイプマップを生成する。
論文 参考訳(メタデータ) (2025-10-14T17:23:44Z) - Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts [78.3687645289918]
我々は,シグモイドゲーティング関数が,専門家推定の統計的タスクにおいて,ソフトマックスゲーティングよりも高いサンプル効率を享受できることを示した。
ReLU や GELU のようなよく使われる活性化型フィードフォワードネットワークとして定式化された専門家は,シグモイドゲーティングの下でより速い収束率を享受できる。
論文 参考訳(メタデータ) (2024-05-22T21:12:34Z) - Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts? [27.924615931679757]
本研究は,MoEの下での最大推定値に対する専門家(MoE)の密度-スパース混合の影響について検討する。
本稿では,線形層の出力を活性化関数にルーティングし,ソフトマックス関数に伝達する新しいアクティベーション・トゥ・スパースゲートを提案する。
論文 参考訳(メタデータ) (2024-01-25T01:09:09Z) - Towards Convergence Rates for Parameter Estimation in Gaussian-gated
Mixture of Experts [40.24720443257405]
ガウスゲートMOEモデルにおける最大推定値(MLE)の収束解析を行う。
以上の結果から,MLEはガウスゲーティング関数の位置パラメータの2つの相補的な設定の下で異なる挙動を示すことが明らかとなった。
特に、これらの挙動は2つの異なる方程式系の可解性によって特徴づけられる。
論文 参考訳(メタデータ) (2023-05-12T16:02:19Z) - A Rigorous Link Between Self-Organizing Maps and Gaussian Mixture Models [78.6363825307044]
本研究は、自己組織化マップ(SOM)とガウス混合モデル(GMM)の関係を数学的に扱うものである。
我々は,エネルギーベースSOMモデルを勾配勾配下降と解釈できることを示した。
このリンクはSOMsを生成確率モデルとして扱うことができ、SOMsを使用して外れ値を検出したりサンプリングしたりするための正式な正当性を与える。
論文 参考訳(メタデータ) (2020-09-24T14:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。