論文の概要: Demystifying Softmax Gating in Gaussian Mixture of Experts
- arxiv url: http://arxiv.org/abs/2305.03288v1
- Date: Fri, 5 May 2023 05:37:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 15:19:25.957063
- Title: Demystifying Softmax Gating in Gaussian Mixture of Experts
- Title(参考訳): 専門家のガウス混合におけるソフトマックスゲーティングのデミスティフィケーション
- Authors: Huy Nguyen and TrungTin Nguyen and Nhat Ho
- Abstract要約: 専門家のガウス混合を測るソフトマックスのパラメータ推定は、文学における長年の問題である。
本稿では,パラメータ間の新しいボノワ損失関数を提案し,最大極大推定器の収束率を確立する。
以上の結果から,MLEの速度と方程式系の可溶性問題との相関が示唆された。
- 参考スコア(独自算出の注目度): 15.435075740453017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding parameter estimation of softmax gating Gaussian mixture of
experts has remained a long-standing open problem in the literature. It is
mainly due to three fundamental theoretical challenges associated with the
softmax gating: (i) the identifiability only up to the translation of the
parameters; (ii) the intrinsic interaction via partial differential equation
between the softmax gating and the expert functions in Gaussian distribution;
(iii) the complex dependence between the numerator and denominator of the
conditional density of softmax gating Gaussian mixture of experts. We resolve
these challenges by proposing novel Vononoi loss functions among parameters and
establishing the convergence rates of the maximum likelihood estimator (MLE)
for solving parameter estimation in these models. When the number of experts is
unknown and over-specified, our findings show a connection between the rate of
MLE and a solvability problem of a system of polynomial equations.
- Abstract(参考訳): ソフトマックスゲーティングガウシアン混合の専門家のパラメータ推定の理解は、文学における長年の未解決問題のままである。
主な原因は、ソフトマックスゲーティングに関連する3つの基本的な理論的課題である。
(i)パラメータの翻訳までしか識別できないこと。
(ii)ガウス分布におけるソフトマックスゲーティングと専門家関数との偏微分方程式による内在的相互作用
(3) ガウスの混合を測るソフトマックスの条件密度の数値と分母の間の複素依存性。
これらの課題を,パラメータ間の新しいボノノイ損失関数を提案し,パラメータ推定のための最大確率推定器(mle)の収束率を確立することで解決する。
専門家の数が不明で、過度に特定された場合、mleの速度と多項式方程式系の可解性問題との関係を示す。
関連論文リスト
- Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts? [31.384469845441362]
専門家(MoE)の密度と分散の混合は、最近よく知られたMoEの代替となる。
パラメータ推定の収束速度はどのスパースレートよりも遅く、$mathcalO (1/log(n))$と同じくらい遅く、$n$はサンプルサイズを表す。
本稿では,線形層の出力を活性化関数にルーティングし,ソフトマックス関数に伝達する新しいアクティベーション・トゥ・スパースゲートを提案する。
論文 参考訳(メタデータ) (2024-01-25T01:09:09Z) - A General Theory for Softmax Gating Multinomial Logistic Mixture of
Experts [30.73205233966986]
本稿では,入力値をゲーティング関数に渡す前に変換する改良型ソフトマックスゲーティング関数を提案する。
その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-22T05:32:19Z) - Statistical Perspective of Top-K Sparse Softmax Gating Mixture of
Experts [28.907764868329988]
本研究では,トップKスパース・ソフトマックス・ゲーティング関数が密度およびパラメータ推定に与える影響について検討した。
その結果,入力領域の異なる振る舞いを捉えるために,パラメータ間の新規な損失関数を定義した。
以上の結果から,トップKスパースソフトマックスゲーティング関数から選択した専門家の数は,一定数のボロノイ細胞の総濃度を超えることが示唆された。
論文 参考訳(メタデータ) (2023-09-25T03:28:01Z) - Curvature-Independent Last-Iterate Convergence for Games on Riemannian
Manifolds [77.4346324549323]
本研究では, 多様体の曲率に依存しないステップサイズが, 曲率非依存かつ直線的最終点収束率を達成することを示す。
我々の知る限りでは、曲率非依存率や/または最終点収束の可能性はこれまでに検討されていない。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - Non-Parametric Learning of Stochastic Differential Equations with Non-asymptotic Fast Rates of Convergence [65.63201894457404]
非線形微分方程式のドリフトと拡散係数の同定のための新しい非パラメトリック学習パラダイムを提案する。
鍵となる考え方は、基本的には、対応するフォッカー・プランク方程式のRKHSに基づく近似をそのような観測に適合させることである。
論文 参考訳(メタデータ) (2023-05-24T20:43:47Z) - Towards Convergence Rates for Parameter Estimation in Gaussian-gated
Mixture of Experts [40.24720443257405]
ガウスゲートMOEモデルにおける最大推定値(MLE)の収束解析を行う。
以上の結果から,MLEはガウスゲーティング関数の位置パラメータの2つの相補的な設定の下で異なる挙動を示すことが明らかとなった。
特に、これらの挙動は2つの異なる方程式系の可解性によって特徴づけられる。
論文 参考訳(メタデータ) (2023-05-12T16:02:19Z) - Convex Bounds on the Softmax Function with Applications to Robustness
Verification [69.09991317119679]
ソフトマックス関数は、ニューラルネットワークの出力においてユビキタスなコンポーネントであり、中間層もますます多くなっている。
本稿では,ニューラルネットワークや他のMLモデルのキャラクタリゼーションのための凸最適化式と互換性のある,ソフトマックス関数上の凸下界と凹上界を提供する。
論文 参考訳(メタデータ) (2023-03-03T05:07:02Z) - Fast approximations of the Jeffreys divergence between univariate
Gaussian mixture models via exponential polynomial densities [16.069404547401373]
ジェフリーズ・ダイバージェンス(英: Jeffreys divergence)は、機械学習、信号処理、情報科学でよく用いられる統計学のクルバック・リブラーの有名な対称性である。
任意の成分数の2つのGMM間のジェフリーズ偏差を近似するために, 単純かつ高速な関数を提案する。
論文 参考訳(メタデータ) (2021-07-13T07:58:01Z) - Optimal Approximation -- Smoothness Tradeoffs for Soft-Max Functions [73.33961743410876]
ソフトマックス関数は近似と滑らかさの2つの主要な効率尺度を持つ。
近似と滑らか性の異なる尺度に対する最適近似-滑らか性トレードオフを同定する。
これにより、新しいソフトマックス関数が生まれ、それぞれ異なる用途に最適である。
論文 参考訳(メタデータ) (2020-10-22T05:19:58Z) - Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave
Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-12T00:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。