論文の概要: Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts
- arxiv url: http://arxiv.org/abs/2405.13997v2
- Date: Sat, 1 Jun 2024 05:29:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 14:19:22.133770
- Title: Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts
- Title(参考訳): シグモイドゲーティングは、専門家の混在によるソフトマックスゲーティングよりも有効である
- Authors: Huy Nguyen, Nhat Ho, Alessandro Rinaldo,
- Abstract要約: 我々は,シグモイドゲーティング関数が,専門家推定の統計的タスクに対して,ソフトマックスゲーティングよりも高いサンプリング効率を有することを示す。
我々は,シグモイドゲーティング関数が,専門家推定と同じ誤差を達成するために,ソフトマックスよりも小さいサンプルサイズを必要とすることを実証した。
- 参考スコア(独自算出の注目度): 78.3687645289918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The softmax gating function is arguably the most popular choice in mixture of experts modeling. Despite its widespread use in practice, softmax gating may lead to unnecessary competition among experts, potentially causing the undesirable phenomenon of representation collapse due to its inherent structure. In response, the sigmoid gating function has been recently proposed as an alternative and has been demonstrated empirically to achieve superior performance. However, a rigorous examination of the sigmoid gating function is lacking in current literature. In this paper, we verify theoretically that sigmoid gating, in fact, enjoys a higher sample efficiency than softmax gating for the statistical task of expert estimation. Towards that goal, we consider a regression framework in which the unknown regression function is modeled as a mixture of experts, and study the rates of convergence of the least squares estimator in the over-specified case in which the number of experts fitted is larger than the true value. We show that two gating regimes naturally arise and, in each of them, we formulate identifiability conditions for the expert functions and derive the corresponding convergence rates. In both cases, we find that experts formulated as feed-forward networks with commonly used activation such as $\mathrm{ReLU}$ and $\mathrm{GELU}$ enjoy faster convergence rates under sigmoid gating than softmax gating. Furthermore, given the same choice of experts, we demonstrate that the sigmoid gating function requires a smaller sample size than its softmax counterpart to attain the same error of expert estimation and, therefore, is more sample efficient.
- Abstract(参考訳): ソフトマックスゲーティング関数は、専門家モデリングの混合において、おそらく最も一般的な選択である。
実際に広く使われているにもかかわらず、ソフトマックスゲーティングは専門家の間で不必要な競争を引き起こす可能性があり、その固有の構造のために表現が崩壊するという望ましくない現象を引き起こす可能性がある。
これに対し, シグモイドゲーティング関数は近年, 代替として提案され, 優れた性能を実現するために実験的に実証されている。
しかし,現在,シグモイドゲーティング機能の厳密な検査は行われていない。
本稿では,シグモイドゲーティングが,専門家推定の統計的タスクにおいて,ソフトマックスゲーティングよりも高いサンプリング効率を享受していることを理論的に検証する。
その目的に向けて、未知の回帰関数を専門家の混合としてモデル化した回帰フレームワークを検討し、適合する専門家の数が真値よりも大きい場合において、最小二乗推定器の収束率について検討する。
2つのゲーティングレジームが自然に発生し、それぞれが専門家関数の識別可能性条件を定式化し、対応する収束率を導出することを示す。
どちらの場合も、例えば$\mathrm{ReLU}$や$\mathrm{GELU}$のような、一般的に使用される活性化を伴うフィードフォワードネットワークとして定式化された専門家は、ソフトマックスゲーティングよりもシグミドゲーティング下での収束速度が速いことが分かる。
さらに,シグモイドゲーティング関数は,エキスパート推定と同じ誤差に達するためには,ソフトマックスよりも小さいサンプルサイズが必要であり,したがって,より標本効率がよいことを示す。
関連論文リスト
- On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts? [27.924615931679757]
本研究は,MoEの下での最大推定値に対する専門家(MoE)の密度-スパース混合の影響について検討する。
本稿では,線形層の出力を活性化関数にルーティングし,ソフトマックス関数に伝達する新しいアクティベーション・トゥ・スパースゲートを提案する。
論文 参考訳(メタデータ) (2024-01-25T01:09:09Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - In Defense of Softmax Parametrization for Calibrated and Consistent
Learning to Defer [27.025808709031864]
ソフトマックスでパラメータを遅延する学習のための一般的な推定器は、遅延する可能性の未有界推定を与えることが理論的に示されている。
従来の文献における誤校正・非有界推定器の原因は,ソフトマックスによるものではなく,サロゲート損失の対称性によるものであることを示す。
統計的に一貫した非対称なソフトマックスに基づくサロゲート損失を提案する。
論文 参考訳(メタデータ) (2023-11-02T09:15:52Z) - A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts [28.13187489224953]
本稿では,入力をゲーティング関数に渡す前に変換する改良型ソフトマックスゲーティング関数を提案する。
その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-22T05:32:19Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - Statistical Perspective of Top-K Sparse Softmax Gating Mixture of
Experts [28.907764868329988]
本研究では,トップKスパース・ソフトマックス・ゲーティング関数が密度およびパラメータ推定に与える影響について検討した。
その結果,入力領域の異なる振る舞いを捉えるために,パラメータ間の新規な損失関数を定義した。
以上の結果から,トップKスパースソフトマックスゲーティング関数から選択した専門家の数は,一定数のボロノイ細胞の総濃度を超えることが示唆された。
論文 参考訳(メタデータ) (2023-09-25T03:28:01Z) - Deep Hierarchy in Bandits [51.22833900944146]
行動の報酬は、しばしば相関する。
統計的効率を最大化するためには,これらの相関を学習に活用することが重要である。
平均作用報酬の相関が階層的ベイズモデルで表されるこの問題のバンディット変法を定式化する。
論文 参考訳(メタデータ) (2022-02-03T08:15:53Z) - Tight Mutual Information Estimation With Contrastive Fenchel-Legendre
Optimization [69.07420650261649]
我々はFLOと呼ばれる新しい,シンプルで強力なコントラストMI推定器を提案する。
実証的に、我々のFLO推定器は前者の限界を克服し、より効率的に学習する。
FLOの有効性は、広範囲なベンチマークを用いて検証され、実際のMI推定におけるトレードオフも明らかにされる。
論文 参考訳(メタデータ) (2021-07-02T15:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。