Fugu-MT 論文翻訳(概要): Demystifying Softmax Gating in Gaussian Mixture of Experts

論文の概要: Demystifying Softmax Gating in Gaussian Mixture of Experts

arxiv url: http://arxiv.org/abs/2305.03288v1
Date: Fri, 5 May 2023 05:37:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-08 15:19:25.957063
Title: Demystifying Softmax Gating in Gaussian Mixture of Experts
Title（参考訳）: 専門家のガウス混合におけるソフトマックスゲーティングのデミスティフィケーション
Authors: Huy Nguyen and TrungTin Nguyen and Nhat Ho
Abstract要約: 専門家のガウス混合を測るソフトマックスのパラメータ推定は、文学における長年の問題である。本稿では,パラメータ間の新しいボノワ損失関数を提案し,最大極大推定器の収束率を確立する。以上の結果から,MLEの速度と方程式系の可溶性問題との相関が示唆された。
参考スコア（独自算出の注目度）: 15.435075740453017
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding parameter estimation of softmax gating Gaussian mixture of experts has remained a long-standing open problem in the literature. It is mainly due to three fundamental theoretical challenges associated with the softmax gating: (i) the identifiability only up to the translation of the parameters; (ii) the intrinsic interaction via partial differential equation between the softmax gating and the expert functions in Gaussian distribution; (iii) the complex dependence between the numerator and denominator of the conditional density of softmax gating Gaussian mixture of experts. We resolve these challenges by proposing novel Vononoi loss functions among parameters and establishing the convergence rates of the maximum likelihood estimator (MLE) for solving parameter estimation in these models. When the number of experts is unknown and over-specified, our findings show a connection between the rate of MLE and a solvability problem of a system of polynomial equations.
Abstract（参考訳）: ソフトマックスゲーティングガウシアン混合の専門家のパラメータ推定の理解は、文学における長年の未解決問題のままである。主な原因は、ソフトマックスゲーティングに関連する3つの基本的な理論的課題である。 (i)パラメータの翻訳までしか識別できないこと。 (ii)ガウス分布におけるソフトマックスゲーティングと専門家関数との偏微分方程式による内在的相互作用 (3) ガウスの混合を測るソフトマックスの条件密度の数値と分母の間の複素依存性。これらの課題を,パラメータ間の新しいボノノイ損失関数を提案し,パラメータ推定のための最大確率推定器(mle)の収束率を確立することで解決する。専門家の数が不明で、過度に特定された場合、mleの速度と多項式方程式系の可解性問題との関係を示す。

関連論文リスト

On Minimax Estimation of Parameters in Softmax-Contaminated Mixture of Experts [66.39976432286905]
ゲーティングおよびプロンプトパラメータの最大極大推定器の収束率について検討する。事前学習したモデルと重なり合う知識を取得すると,これらのパラメータの推定可能性が損なわれることがわかった。
論文参考訳（メタデータ） (2025-05-24T01:30:46Z)
Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。 MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文参考訳（メタデータ） (2025-03-05T06:11:24Z)
MG-Net: Learn to Customize QAOA with Circuit Depth Awareness [51.78425545377329]
量子近似最適化アルゴリズム(QAOA)とその変種は、最適化問題に対処する大きな可能性を示している。良好な性能を実現するために必要な回路深度は問題固有であり、しばしば現在の量子デバイスの最大容量を超える。ミキサジェネレータネットワーク (MG-Net) は, 最適ミキサハミルトニアンを動的に定式化するための統合ディープラーニングフレームワークである。
論文参考訳（メタデータ） (2024-09-27T12:28:18Z)
An Analysis of Quantum Annealing Algorithms for Solving the Maximum Clique Problem [49.1574468325115]
我々は、QUBO問題として表されるグラフ上の最大傾きを見つける量子D波アンナーの能力を解析する。本稿では, 相補的な最大独立集合問題に対する分解アルゴリズムと, ノード数, 傾き数, 密度, 接続率, 解サイズの他のノード数に対する比を制御するグラフ生成アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-11T04:40:05Z)
Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts [78.3687645289918]
我々は,シグモイドゲーティング関数が,専門家推定の統計的タスクにおいて,ソフトマックスゲーティングよりも高いサンプル効率を享受できることを示した。 ReLU や GELU のようなよく使われる活性化型フィードフォワードネットワークとして定式化された専門家は,シグモイドゲーティングの下でより速い収束率を享受できる。
論文参考訳（メタデータ） (2024-05-22T21:12:34Z)
Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts? [27.924615931679757]
本研究は,MoEの下での最大推定値に対する専門家(MoE)の密度-スパース混合の影響について検討する。本稿では,線形層の出力を活性化関数にルーティングし,ソフトマックス関数に伝達する新しいアクティベーション・トゥ・スパースゲートを提案する。
論文参考訳（メタデータ） (2024-01-25T01:09:09Z)
A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts [28.13187489224953]
本稿では,入力をゲーティング関数に渡す前に変換する改良型ソフトマックスゲーティング関数を提案する。その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
論文参考訳（メタデータ） (2023-10-22T05:32:19Z)
Statistical Perspective of Top-K Sparse Softmax Gating Mixture of Experts [28.907764868329988]
本研究では,トップKスパース・ソフトマックス・ゲーティング関数が密度およびパラメータ推定に与える影響について検討した。その結果,入力領域の異なる振る舞いを捉えるために,パラメータ間の新規な損失関数を定義した。以上の結果から,トップKスパースソフトマックスゲーティング関数から選択した専門家の数は,一定数のボロノイ細胞の総濃度を超えることが示唆された。
論文参考訳（メタデータ） (2023-09-25T03:28:01Z)
Towards Convergence Rates for Parameter Estimation in Gaussian-gated Mixture of Experts [40.24720443257405]
ガウスゲートMOEモデルにおける最大推定値(MLE)の収束解析を行う。以上の結果から,MLEはガウスゲーティング関数の位置パラメータの2つの相補的な設定の下で異なる挙動を示すことが明らかとなった。特に、これらの挙動は2つの異なる方程式系の可解性によって特徴づけられる。
論文参考訳（メタデータ） (2023-05-12T16:02:19Z)
Convex Bounds on the Softmax Function with Applications to Robustness Verification [69.09991317119679]
ソフトマックス関数は、ニューラルネットワークの出力においてユビキタスなコンポーネントであり、中間層もますます多くなっている。本稿では,ニューラルネットワークや他のMLモデルのキャラクタリゼーションのための凸最適化式と互換性のある,ソフトマックス関数上の凸下界と凹上界を提供する。
論文参考訳（メタデータ） (2023-03-03T05:07:02Z)
Optimal Approximation -- Smoothness Tradeoffs for Soft-Max Functions [73.33961743410876]
ソフトマックス関数は近似と滑らかさの2つの主要な効率尺度を持つ。近似と滑らか性の異なる尺度に対する最適近似-滑らか性トレードオフを同定する。これにより、新しいソフトマックス関数が生まれ、それぞれ異なる用途に最適である。
論文参考訳（メタデータ） (2020-10-22T05:19:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。