論文の概要: On Least Squares Estimation in Softmax Gating Mixture of Experts
- arxiv url: http://arxiv.org/abs/2402.02952v1
- Date: Mon, 5 Feb 2024 12:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 16:22:37.546537
- Title: On Least Squares Estimation in Softmax Gating Mixture of Experts
- Title(参考訳): ソフトマックスゲーティングにおけるエキスパートの最小二乗推定について
- Authors: Huy Nguyen and Nhat Ho and Alessandro Rinaldo
- Abstract要約: 決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
- 参考スコア(独自算出の注目度): 85.61224527426624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture of experts (MoE) model is a statistical machine learning design that
aggregates multiple expert networks using a softmax gating function in order to
form a more intricate and expressive model. Despite being commonly used in
several applications owing to their scalability, the mathematical and
statistical properties of MoE models are complex and difficult to analyze. As a
result, previous theoretical works have primarily focused on probabilistic MoE
models by imposing the impractical assumption that the data are generated from
a Gaussian MoE model. In this work, we investigate the performance of the least
squares estimators (LSE) under a deterministic MoE model where the data are
sampled according to a regression model, a setting that has remained largely
unexplored. We establish a condition called strong identifiability to
characterize the convergence behavior of various types of expert functions. We
demonstrate that the rates for estimating strongly identifiable experts, namely
the widely used feed forward networks with activation functions
$\mathrm{sigmoid}(\cdot)$ and $\tanh(\cdot)$, are substantially faster than
those of polynomial experts, which we show to exhibit a surprising slow
estimation rate. Our findings have important practical implications for expert
selection.
- Abstract(参考訳): mixed of experts (moe) modelは、より複雑で表現力のあるモデルを形成するために、softmax gating関数を使用して複数のエキスパートネットワークを集約する統計的機械学習設計である。
スケーラビリティのため、いくつかのアプリケーションで一般的に使われているが、moeモデルの数学的および統計的な性質は複雑で分析が難しい。
その結果、以前の理論研究は主に確率的moeモデルに焦点をあて、データがガウス的moeモデルから生成されるという非現実的な仮定を課している。
本研究では,回帰モデルに基づいてデータをサンプリングした決定論的moeモデルにおいて,最小二乗推定器(lse)の性能について検討する。
我々は,各種専門家関数の収束挙動を特徴付ける強識別可能性という条件を定式化する。
強く識別可能な専門家を推定する速度、すなわち、活性化関数 $\mathrm{sigmoid}(\cdot)$ と $\tanh(\cdot)$ が多項式の専門家のそれよりも大幅に速いことが示され、驚くべき低速な推定率を示す。
我々の発見は専門家の選択に重要な意味を持つ。
関連論文リスト
- Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts [78.3687645289918]
我々は,シグモイドゲーティング関数が,専門家推定の統計的タスクにおいて,ソフトマックスゲーティングよりも高いサンプル効率を享受できることを示した。
ReLU や GELU のようなよく使われる活性化型フィードフォワードネットワークとして定式化された専門家は,シグモイドゲーティングの下でより速い収束率を享受できる。
論文 参考訳(メタデータ) (2024-05-22T21:12:34Z) - Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts [28.13187489224953]
本稿では,入力をゲーティング関数に渡す前に変換する改良型ソフトマックスゲーティング関数を提案する。
その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-22T05:32:19Z) - A prediction and behavioural analysis of machine learning methods for
modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。
その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。
MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文 参考訳(メタデータ) (2023-01-11T11:10:32Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - A non-asymptotic penalization criterion for model selection in mixture
of experts models [1.491109220586182]
ガウス型局所化moe(glome)回帰モデルを用いて異種データをモデル化する。
このモデルは、統計的推定とモデル選択の問題に関して難しい疑問を提起する。
本稿では,GLoMEモデルの成分数を推定する問題について,最大推定法を用いて検討する。
論文 参考訳(メタデータ) (2021-04-06T16:24:55Z) - Amortized Bayesian model comparison with evidential deep learning [0.12314765641075436]
本稿では,専門的なディープラーニングアーキテクチャを用いたベイズモデルの比較手法を提案する。
提案手法は純粋にシミュレーションベースであり,観測された各データセットに対して,すべての代替モデルを明示的に適合させるステップを回避している。
提案手法は,本研究で検討した事例に対して,精度,キャリブレーション,効率の点で優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-22T15:15:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。