論文の概要: A General Theory for Softmax Gating Multinomial Logistic Mixture of
Experts
- arxiv url: http://arxiv.org/abs/2310.14188v1
- Date: Sun, 22 Oct 2023 05:32:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 01:24:39.818313
- Title: A General Theory for Softmax Gating Multinomial Logistic Mixture of
Experts
- Title(参考訳): ソフトマックスゲーティングにおけるエキスパートの多項ロジスティックな混合の理論
- Authors: Huy Nguyen, Pedram Akbarian, TrungTin Nguyen, Nhat Ho
- Abstract要約: 本稿では,入力値をゲーティング関数に渡す前に変換する改良型ソフトマックスゲーティング関数を提案する。
その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
- 参考スコア(独自算出の注目度): 30.73205233966986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-experts (MoE) model incorporates the power of multiple submodels
via gating functions to achieve greater performance in numerous regression and
classification applications. From a theoretical perspective, while there have
been previous attempts to comprehend the behavior of that model under the
regression settings through the convergence analysis of maximum likelihood
estimation in the Gaussian MoE model, such analysis under the setting of a
classification problem has remained missing in the literature. We close this
gap by establishing the convergence rates of density estimation and parameter
estimation in the softmax gating multinomial logistic MoE model. Notably, when
part of the expert parameters vanish, these rates are shown to be slower than
polynomial rates owing to an inherent interaction between the softmax gating
and expert functions via partial differential equations. To address this issue,
we propose using a novel class of modified softmax gating functions which
transform the input value before delivering them to the gating functions. As a
result, the previous interaction disappears and the parameter estimation rates
are significantly improved.
- Abstract(参考訳): mix-of-experts(moe)モデルは、ゲーティング関数を介して複数のサブモデルのパワーを取り入れ、多くの回帰および分類アプリケーションでより高いパフォーマンスを達成する。
理論的な観点からは、ガウスmoeモデルにおける最大確率推定の収束解析を通じて回帰条件下でのモデルの挙動を理解する試みは以前から行われてきたが、このような分類問題の設定下での分析は文献に欠落している。
このギャップを,softmax gating multinomial logistic moeモデルにおける密度推定とパラメータ推定の収束率を確立することで解消する。
特に、エキスパートパラメータの一部が消失すると、これらのレートは、ソフトマックスゲーティングと偏微分方程式によるエキスパート関数との固有の相互作用により多項式レートよりも遅いことが示されている。
この問題に対処するため,本稿では,入力値をガティング関数に渡す前に変換する,修正ソフトマックスガティング関数の新たなクラスを提案する。
その結果,従来の相互作用は消失し,パラメータ推定率が大幅に向上した。
関連論文リスト
- On Least Squares Estimation in Softmax Gating Mixture of Experts [85.61224527426624]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts? [31.384469845441362]
専門家(MoE)の密度と分散の混合は、最近よく知られたMoEの代替となる。
パラメータ推定の収束速度はどのスパースレートよりも遅く、$mathcalO (1/log(n))$と同じくらい遅く、$n$はサンプルサイズを表す。
本稿では,線形層の出力を活性化関数にルーティングし,ソフトマックス関数に伝達する新しいアクティベーション・トゥ・スパースゲートを提案する。
論文 参考訳(メタデータ) (2024-01-25T01:09:09Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Multi-Response Heteroscedastic Gaussian Process Models and Their
Inference [1.52292571922932]
本稿ではヘテロセダスティック共分散関数のモデリングのための新しいフレームワークを提案する。
後部モデルに近似し, 後部予測モデルを容易にするために, 変分推論を用いる。
提案するフレームワークは,幅広いアプリケーションに対して,堅牢で汎用的なツールを提供する。
論文 参考訳(メタデータ) (2023-08-29T15:06:47Z) - Towards Convergence Rates for Parameter Estimation in Gaussian-gated
Mixture of Experts [40.24720443257405]
ガウスゲートMOEモデルにおける最大推定値(MLE)の収束解析を行う。
以上の結果から,MLEはガウスゲーティング関数の位置パラメータの2つの相補的な設定の下で異なる挙動を示すことが明らかとなった。
特に、これらの挙動は2つの異なる方程式系の可解性によって特徴づけられる。
論文 参考訳(メタデータ) (2023-05-12T16:02:19Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Adaptive LASSO estimation for functional hidden dynamic geostatistical
model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。
このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文 参考訳(メタデータ) (2022-08-10T19:17:45Z) - Estimation of Switched Markov Polynomial NARX models [75.91002178647165]
非線形自己回帰(NARX)成分を特徴とするハイブリッド力学系のモデル群を同定する。
提案手法は, 特定の回帰器を持つ3つの非線形サブモデルからなるSMNARX問題に対して実証される。
論文 参考訳(メタデータ) (2020-09-29T15:00:47Z) - An $l_1$-oracle inequality for the Lasso in high-dimensional mixtures of
experts models [2.494740426749958]
ソフトマックスゲーティング関数を持つ有限MoEモデルとガウスの専門家による異種データの高次元回帰について検討する。
特徴選択特性よりもラッソ推定特性に着目した。
論文 参考訳(メタデータ) (2020-09-22T15:23:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。