論文の概要: On Least Squares Estimation in Softmax Gating Mixture of Experts
- arxiv url: http://arxiv.org/abs/2402.02952v1
- Date: Mon, 5 Feb 2024 12:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 16:22:37.546537
- Title: On Least Squares Estimation in Softmax Gating Mixture of Experts
- Title(参考訳): ソフトマックスゲーティングにおけるエキスパートの最小二乗推定について
- Authors: Huy Nguyen and Nhat Ho and Alessandro Rinaldo
- Abstract要約: 決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
- 参考スコア(独自算出の注目度): 85.61224527426624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture of experts (MoE) model is a statistical machine learning design that
aggregates multiple expert networks using a softmax gating function in order to
form a more intricate and expressive model. Despite being commonly used in
several applications owing to their scalability, the mathematical and
statistical properties of MoE models are complex and difficult to analyze. As a
result, previous theoretical works have primarily focused on probabilistic MoE
models by imposing the impractical assumption that the data are generated from
a Gaussian MoE model. In this work, we investigate the performance of the least
squares estimators (LSE) under a deterministic MoE model where the data are
sampled according to a regression model, a setting that has remained largely
unexplored. We establish a condition called strong identifiability to
characterize the convergence behavior of various types of expert functions. We
demonstrate that the rates for estimating strongly identifiable experts, namely
the widely used feed forward networks with activation functions
$\mathrm{sigmoid}(\cdot)$ and $\tanh(\cdot)$, are substantially faster than
those of polynomial experts, which we show to exhibit a surprising slow
estimation rate. Our findings have important practical implications for expert
selection.
- Abstract(参考訳): mixed of experts (moe) modelは、より複雑で表現力のあるモデルを形成するために、softmax gating関数を使用して複数のエキスパートネットワークを集約する統計的機械学習設計である。
スケーラビリティのため、いくつかのアプリケーションで一般的に使われているが、moeモデルの数学的および統計的な性質は複雑で分析が難しい。
その結果、以前の理論研究は主に確率的moeモデルに焦点をあて、データがガウス的moeモデルから生成されるという非現実的な仮定を課している。
本研究では,回帰モデルに基づいてデータをサンプリングした決定論的moeモデルにおいて,最小二乗推定器(lse)の性能について検討する。
我々は,各種専門家関数の収束挙動を特徴付ける強識別可能性という条件を定式化する。
強く識別可能な専門家を推定する速度、すなわち、活性化関数 $\mathrm{sigmoid}(\cdot)$ と $\tanh(\cdot)$ が多項式の専門家のそれよりも大幅に速いことが示され、驚くべき低速な推定率を示す。
我々の発見は専門家の選択に重要な意味を持つ。
関連論文リスト
- Model-Based RL for Mean-Field Games is not Statistically Harder than
Single-Agent RL [64.90038012690403]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - A General Theory for Softmax Gating Multinomial Logistic Mixture of
Experts [30.73205233966986]
本稿では,入力値をゲーティング関数に渡す前に変換する改良型ソフトマックスゲーティング関数を提案する。
その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-22T05:32:19Z) - A prediction and behavioural analysis of machine learning methods for
modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。
その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。
MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文 参考訳(メタデータ) (2023-01-11T11:10:32Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - A non-asymptotic penalization criterion for model selection in mixture
of experts models [1.491109220586182]
ガウス型局所化moe(glome)回帰モデルを用いて異種データをモデル化する。
このモデルは、統計的推定とモデル選択の問題に関して難しい疑問を提起する。
本稿では,GLoMEモデルの成分数を推定する問題について,最大推定法を用いて検討する。
論文 参考訳(メタデータ) (2021-04-06T16:24:55Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - An $l_1$-oracle inequality for the Lasso in high-dimensional mixtures of
experts models [2.494740426749958]
ソフトマックスゲーティング関数を持つ有限MoEモデルとガウスの専門家による異種データの高次元回帰について検討する。
特徴選択特性よりもラッソ推定特性に着目した。
論文 参考訳(メタデータ) (2020-09-22T15:23:35Z) - Amortized Bayesian model comparison with evidential deep learning [0.12314765641075436]
本稿では,専門的なディープラーニングアーキテクチャを用いたベイズモデルの比較手法を提案する。
提案手法は純粋にシミュレーションベースであり,観測された各データセットに対して,すべての代替モデルを明示的に適合させるステップを回避している。
提案手法は,本研究で検討した事例に対して,精度,キャリブレーション,効率の点で優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-22T15:15:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。