論文の概要: Statistical Perspective of Top-K Sparse Softmax Gating Mixture of
Experts
- arxiv url: http://arxiv.org/abs/2309.13850v1
- Date: Mon, 25 Sep 2023 03:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 17:13:21.477390
- Title: Statistical Perspective of Top-K Sparse Softmax Gating Mixture of
Experts
- Title(参考訳): トップKスパース・ソフトマックス・ゲーティング・ミックスの統計的展望
- Authors: Huy Nguyen, Pedram Akbarian, Fanqi Yan, Nhat Ho
- Abstract要約: 本研究では,トップKスパース・ソフトマックス・ゲーティング関数が密度およびパラメータ推定に与える影響について検討した。
その結果,入力領域の異なる振る舞いを捉えるために,パラメータ間の新規な損失関数を定義した。
以上の結果から,トップKスパースソフトマックスゲーティング関数から選択した専門家の数は,一定数のボロノイ細胞の総濃度を超えることが示唆された。
- 参考スコア(独自算出の注目度): 28.907764868329988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Top-K sparse softmax gating mixture of experts has been widely used for
scaling up massive deep-learning architectures without increasing the
computational cost. Despite its popularity in real-world applications, the
theoretical understanding of that gating function has remained an open problem.
The main challenge comes from the structure of the top-K sparse softmax gating
function, which partitions the input space into multiple regions with distinct
behaviors. By focusing on a Gaussian mixture of experts, we establish
theoretical results on the effects of the top-K sparse softmax gating function
on both density and parameter estimations. Our results hinge upon defining
novel loss functions among parameters to capture different behaviors of the
input regions. When the true number of experts $k_{\ast}$ is known, we
demonstrate that the convergence rates of density and parameter estimations are
both parametric on the sample size. However, when $k_{\ast}$ becomes unknown
and the true model is over-specified by a Gaussian mixture of $k$ experts where
$k > k_{\ast}$, our findings suggest that the number of experts selected from
the top-K sparse softmax gating function must exceed the total cardinality of a
certain number of Voronoi cells associated with the true parameters to
guarantee the convergence of the density estimation. Moreover, while the
density estimation rate remains parametric under this setting, the parameter
estimation rates become substantially slow due to an intrinsic interaction
between the softmax gating and expert functions.
- Abstract(参考訳): 計算コストを増大させることなく、大規模なディープラーニングアーキテクチャのスケールアップに広く使用されている。
現実世界の応用で人気があるにもかかわらず、そのゲーティング関数の理論的理解は未解決の問題のままである。
主な課題は、入力空間を異なる振る舞いを持つ複数の領域に分割するトップKスパース・ソフトマックスゲーティング関数の構造である。
専門家のガウス混合に焦点を合わせることにより、トップKスパース・ソフトマックスゲーティング関数が密度およびパラメータ推定に与える影響に関する理論的結果を確立する。
その結果,入力領域の異なる振る舞いを捉えるために,パラメータ間の新規な損失関数を定義した。
実数のエキスパート $k_{\ast}$ が知られている場合、密度とパラメータ推定の収束率の両方がサンプルサイズでパラメトリックであることを示す。
しかし、$k_{\ast}$が未知となり、真のモデルが$k$の専門家の混合によって過剰に特定されると、この結果から、上位Kスパースソフトマックスゲーティング関数から選択された専門家の数は、真のパラメータに関連するボロノイセルの総濃度を超えなければならず、密度推定の収束を保証することが示唆された。
さらに, この条件下では, 密度推定速度はパラメトリックのままであるが, ソフトマックスゲーティングとエキスパート関数の内在的相互作用により, パラメータ推定速度は著しく遅くなる。
関連論文リスト
- Multivariate root-n-consistent smoothing parameter free matching estimators and estimators of inverse density weighted expectations [51.000851088730684]
我々は、パラメトリックな$sqrt n $-rateで収束する、最も近い隣人の新しい修正とマッチング推定器を開発する。
我々は,非パラメトリック関数推定器は含まないこと,特に標本サイズ依存パラメータの平滑化には依存していないことを強調する。
論文 参考訳(メタデータ) (2024-07-11T13:28:34Z) - Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts [78.3687645289918]
我々は,シグモイドゲーティング関数が,専門家推定の統計的タスクにおいて,ソフトマックスゲーティングよりも高いサンプル効率を享受できることを示した。
ReLU や GELU のようなよく使われる活性化型フィードフォワードネットワークとして定式化された専門家は,シグモイドゲーティングの下でより速い収束率を享受できる。
論文 参考訳(メタデータ) (2024-05-22T21:12:34Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts? [27.924615931679757]
本研究は,MoEの下での最大推定値に対する専門家(MoE)の密度-スパース混合の影響について検討する。
本稿では,線形層の出力を活性化関数にルーティングし,ソフトマックス関数に伝達する新しいアクティベーション・トゥ・スパースゲートを提案する。
論文 参考訳(メタデータ) (2024-01-25T01:09:09Z) - A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts [28.13187489224953]
本稿では,入力をゲーティング関数に渡す前に変換する改良型ソフトマックスゲーティング関数を提案する。
その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-22T05:32:19Z) - Curvature-Independent Last-Iterate Convergence for Games on Riemannian
Manifolds [77.4346324549323]
本研究では, 多様体の曲率に依存しないステップサイズが, 曲率非依存かつ直線的最終点収束率を達成することを示す。
我々の知る限りでは、曲率非依存率や/または最終点収束の可能性はこれまでに検討されていない。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - Stochastic Marginal Likelihood Gradients using Neural Tangent Kernels [78.6096486885658]
線形化されたラプラス近似に下界を導入する。
これらの境界は漸進的な最適化が可能であり、推定精度と計算複雑性とのトレードオフを可能にする。
論文 参考訳(メタデータ) (2023-06-06T19:02:57Z) - Demystifying Softmax Gating Function in Gaussian Mixture of Experts [34.53974702114644]
本稿では,パラメータ間の新しいボロノイ損失関数を提案し,パラメータ推定のための最大極大推定器(MLE)の収束率を確立する。
本研究は,MLEの収束率と方程式系の可解性問題との関連性を示した。
論文 参考訳(メタデータ) (2023-05-05T05:37:55Z) - Tight Cram\'{e}r-Rao type bounds for multiparameter quantum metrology
through conic programming [61.98670278625053]
最適な精度で不整合パラメータを推定できる実用的な測定戦略が最重要である。
ここでは、最適精度で非相関な測定方法を見つけるための具体的な方法を示す。
従来の計算可能境界と最終的な精度境界との間には厳密なギャップがあることを数値的に示す。
論文 参考訳(メタデータ) (2022-09-12T13:06:48Z) - Predicting parameters for the Quantum Approximate Optimization Algorithm
for MAX-CUT from the infinite-size limit [0.05076419064097732]
推定次数$d$のランダムエルドス・レーニグラフに適用したMAX-CUT上でのQAOAの性能を評価するための明示的なアルゴリズムを提案する。
この解析により、エルドス・レーニグラフ上のMAX-CUTのQAOAパラメータとシェリントン・カークパトリックモデルとの明示的なマッピングが得られる。
論文 参考訳(メタデータ) (2021-10-20T17:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。