論文の概要: Demystifying Softmax Gating Function in Gaussian Mixture of Experts
- arxiv url: http://arxiv.org/abs/2305.03288v2
- Date: Mon, 30 Oct 2023 01:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 02:54:38.744477
- Title: Demystifying Softmax Gating Function in Gaussian Mixture of Experts
- Title(参考訳): 専門家のガウス混合におけるソフトマックスゲーティング機能
- Authors: Huy Nguyen and TrungTin Nguyen and Nhat Ho
- Abstract要約: 本稿では,パラメータ間の新しいボロノイ損失関数を提案し,パラメータ推定のための最大極大推定器(MLE)の収束率を確立する。
本研究は,MLEの収束率と方程式系の可解性問題との関連性を示した。
- 参考スコア(独自算出の注目度): 34.53974702114644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the parameter estimation of softmax gating Gaussian mixture of
experts has remained a long-standing open problem in the literature. It is
mainly due to three fundamental theoretical challenges associated with the
softmax gating function: (i) the identifiability only up to the translation of
parameters; (ii) the intrinsic interaction via partial differential equations
between the softmax gating and the expert functions in the Gaussian density;
(iii) the complex dependence between the numerator and denominator of the
conditional density of softmax gating Gaussian mixture of experts. We resolve
these challenges by proposing novel Voronoi loss functions among parameters and
establishing the convergence rates of maximum likelihood estimator (MLE) for
solving parameter estimation in these models. When the true number of experts
is unknown and over-specified, our findings show a connection between the
convergence rate of the MLE and a solvability problem of a system of polynomial
equations.
- Abstract(参考訳): ソフトマックスゲーティング・ガウシアン混合物のパラメータ推定の理解は、文献の長年の未解決問題として残されている。
主な原因は、ソフトマックスゲーティング関数に関連する3つの基本的な理論的課題である。
(i)パラメータの翻訳のみによる識別可能性
(II)ソフトマックスゲーティングとガウス密度のエキスパート関数の間の偏微分方程式による内在的相互作用
(3) ガウスの混合を測るソフトマックスの条件密度の数値と分母の間の複素依存性。
これらの課題を,パラメータ間の新しいボロノイ損失関数を提案し,パラメータ推定のためのmle(maximum probability estimator)の収束率を確立することで解決する。
本研究の結果から,mleの収束率と多項式方程式系の可解性問題との関係が明らかとなった。
関連論文リスト
- Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts? [31.384469845441362]
専門家(MoE)の密度と分散の混合は、最近よく知られたMoEの代替となる。
パラメータ推定の収束速度はどのスパースレートよりも遅く、$mathcalO (1/log(n))$と同じくらい遅く、$n$はサンプルサイズを表す。
本稿では,線形層の出力を活性化関数にルーティングし,ソフトマックス関数に伝達する新しいアクティベーション・トゥ・スパースゲートを提案する。
論文 参考訳(メタデータ) (2024-01-25T01:09:09Z) - A General Theory for Softmax Gating Multinomial Logistic Mixture of
Experts [30.73205233966986]
本稿では,入力値をゲーティング関数に渡す前に変換する改良型ソフトマックスゲーティング関数を提案する。
その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-22T05:32:19Z) - Statistical Perspective of Top-K Sparse Softmax Gating Mixture of
Experts [28.907764868329988]
本研究では,トップKスパース・ソフトマックス・ゲーティング関数が密度およびパラメータ推定に与える影響について検討した。
その結果,入力領域の異なる振る舞いを捉えるために,パラメータ間の新規な損失関数を定義した。
以上の結果から,トップKスパースソフトマックスゲーティング関数から選択した専門家の数は,一定数のボロノイ細胞の総濃度を超えることが示唆された。
論文 参考訳(メタデータ) (2023-09-25T03:28:01Z) - Curvature-Independent Last-Iterate Convergence for Games on Riemannian
Manifolds [77.4346324549323]
本研究では, 多様体の曲率に依存しないステップサイズが, 曲率非依存かつ直線的最終点収束率を達成することを示す。
我々の知る限りでは、曲率非依存率や/または最終点収束の可能性はこれまでに検討されていない。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - Towards Convergence Rates for Parameter Estimation in Gaussian-gated
Mixture of Experts [40.24720443257405]
ガウスゲートMOEモデルにおける最大推定値(MLE)の収束解析を行う。
以上の結果から,MLEはガウスゲーティング関数の位置パラメータの2つの相補的な設定の下で異なる挙動を示すことが明らかとなった。
特に、これらの挙動は2つの異なる方程式系の可解性によって特徴づけられる。
論文 参考訳(メタデータ) (2023-05-12T16:02:19Z) - Convex Bounds on the Softmax Function with Applications to Robustness
Verification [69.09991317119679]
ソフトマックス関数は、ニューラルネットワークの出力においてユビキタスなコンポーネントであり、中間層もますます多くなっている。
本稿では,ニューラルネットワークや他のMLモデルのキャラクタリゼーションのための凸最適化式と互換性のある,ソフトマックス関数上の凸下界と凹上界を提供する。
論文 参考訳(メタデータ) (2023-03-03T05:07:02Z) - First-Order Algorithms for Min-Max Optimization in Geodesic Metric
Spaces [93.35384756718868]
min-maxアルゴリズムはユークリッド設定で解析されている。
指数関数法 (RCEG) が線形速度で最終収束を補正したことを証明した。
論文 参考訳(メタデータ) (2022-06-04T18:53:44Z) - Fast approximations of the Jeffreys divergence between univariate
Gaussian mixture models via exponential polynomial densities [16.069404547401373]
ジェフリーズ・ダイバージェンス(英: Jeffreys divergence)は、機械学習、信号処理、情報科学でよく用いられる統計学のクルバック・リブラーの有名な対称性である。
任意の成分数の2つのGMM間のジェフリーズ偏差を近似するために, 単純かつ高速な関数を提案する。
論文 参考訳(メタデータ) (2021-07-13T07:58:01Z) - Optimal Approximation -- Smoothness Tradeoffs for Soft-Max Functions [73.33961743410876]
ソフトマックス関数は近似と滑らかさの2つの主要な効率尺度を持つ。
近似と滑らか性の異なる尺度に対する最適近似-滑らか性トレードオフを同定する。
これにより、新しいソフトマックス関数が生まれ、それぞれ異なる用途に最適である。
論文 参考訳(メタデータ) (2020-10-22T05:19:58Z) - Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave
Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-12T00:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。