論文の概要: Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts?
- arxiv url: http://arxiv.org/abs/2401.13875v1
- Date: Thu, 25 Jan 2024 01:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 15:56:27.843805
- Title: Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts?
- Title(参考訳): ソフトマックスガウスのエキスパートの温度サンプルは有効か?
- Authors: Huy Nguyen, Pedram Akbarian, Nhat Ho
- Abstract要約: 専門家(MoE)の密度と分散の混合は、最近よく知られたMoEの代替となる。
パラメータ推定の収束速度はどのスパースレートよりも遅く、$mathcalO (1/log(n))$と同じくらい遅く、$n$はサンプルサイズを表す。
本稿では,線形層の出力を活性化関数にルーティングし,ソフトマックス関数に伝達する新しいアクティベーション・トゥ・スパースゲートを提案する。
- 参考スコア(独自算出の注目度): 31.384469845441362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense-to-sparse gating mixture of experts (MoE) has recently become an
effective alternative to a well-known sparse MoE. Rather than fixing the number
of activated experts as in the latter model, which could limit the
investigation of potential experts, the former model utilizes the temperature
to control the softmax weight distribution and the sparsity of the MoE during
training in order to stabilize the expert specialization. Nevertheless, while
there are previous attempts to theoretically comprehend the sparse MoE, a
comprehensive analysis of the dense-to-sparse gating MoE has remained elusive.
Therefore, we aim to explore the impacts of the dense-to-sparse gate on the
maximum likelihood estimation under the Gaussian MoE in this paper. We
demonstrate that due to interactions between the temperature and other model
parameters via some partial differential equations, the convergence rates of
parameter estimations are slower than any polynomial rates, and could be as
slow as $\mathcal{O}(1/\log(n))$, where $n$ denotes the sample size. To address
this issue, we propose using a novel activation dense-to-sparse gate, which
routes the output of a linear layer to an activation function before delivering
them to the softmax function. By imposing linearly independence conditions on
the activation function and its derivatives, we show that the parameter
estimation rates are significantly improved to polynomial rates.
- Abstract(参考訳): 専門家の密集した gating mix of experts (moe) は、最近、よく知られた疎moeの効果的な代替品となっている。
後者のモデルのように、潜在的な専門家の調査を制限するような活性化された専門家の数を固定する代わりに、前者は、専門家の専門化を安定させるために訓練中のmoeのソフトマックス重量分布とスパーシティを制御するために温度を利用する。
しかしながら、かつてはスパースMoEを理論的に理解しようとする試みがあったが、密度とスパースを混合するMoEの包括的分析はいまだに解明されていない。
そこで本論文では,密度とスパースゲートがガウスMOEの下での最大推定に与える影響について検討する。
ある偏微分方程式による温度と他のモデルパラメータ間の相互作用により、パラメータ推定の収束速度は任意の多項式速度よりも遅く、$\mathcal{O}(1/\log(n))$と同じくらい遅くなり、$n$はサンプルサイズを表す。
そこで本稿では,リニア層の出力を,softmax関数に配信する前に活性化関数にルーティングする,新しいアクティベーション・デング・ツー・スパースゲートを提案する。
活性化関数とその導関数に線形独立条件を課すことで, パラメータ推定率が多項式率に対して有意に向上することを示す。
関連論文リスト
- Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts [78.3687645289918]
我々は,シグモイドゲーティング関数が,専門家推定の統計的タスクにおいて,ソフトマックスゲーティングよりも高いサンプル効率を享受できることを示した。
ReLU や GELU のようなよく使われる活性化型フィードフォワードネットワークとして定式化された専門家は,シグモイドゲーティングの下でより速い収束率を享受できる。
論文 参考訳(メタデータ) (2024-05-22T21:12:34Z) - On the Asymptotic Mean Square Error Optimality of Diffusion Models [10.72484143420088]
生成前駆体としての拡散モデル(DM)は近年,タスクを認知する大きな可能性を示している。
本稿では, MSE-Optimal Conditional mean (CME) の構造から着想を得た新しい認知戦略を提案する。
結果のDMベースのデノイザは、トレーニング済みのDMを用いて便利に使用することができ、特に逆拡散ステップをトラッピングすることで高速である。
論文 参考訳(メタデータ) (2024-03-05T13:25:44Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts [28.13187489224953]
本稿では,入力をゲーティング関数に渡す前に変換する改良型ソフトマックスゲーティング関数を提案する。
その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-22T05:32:19Z) - Stochastic Marginal Likelihood Gradients using Neural Tangent Kernels [78.6096486885658]
線形化されたラプラス近似に下界を導入する。
これらの境界は漸進的な最適化が可能であり、推定精度と計算複雑性とのトレードオフを可能にする。
論文 参考訳(メタデータ) (2023-06-06T19:02:57Z) - Interacting Particle Langevin Algorithm for Maximum Marginal Likelihood
Estimation [2.53740603524637]
我々は,最大限界推定法を実装するための相互作用粒子系のクラスを開発する。
特に、この拡散の定常測度のパラメータ境界がギブス測度の形式であることを示す。
特定の再スケーリングを用いて、このシステムの幾何学的エルゴディディティを証明し、離散化誤差を限定する。
時間的に一様で、粒子の数で増加しない方法で。
論文 参考訳(メタデータ) (2023-03-23T16:50:08Z) - Sampling with Mollified Interaction Energy Descent [57.00583139477843]
モーフィファイド相互作用エネルギー降下(MIED)と呼ばれる新しい最適化に基づくサンプリング手法を提案する。
MIEDは、モル化相互作用エネルギー(MIE)と呼ばれる確率測度に関する新しいクラスのエネルギーを最小化する
我々は,制約のないサンプリング問題に対して,我々のアルゴリズムがSVGDのような既存の粒子ベースアルゴリズムと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-10-24T16:54:18Z) - Pseudo-Spherical Contrastive Divergence [119.28384561517292]
エネルギーベースモデルの最大学習確率を一般化するために,擬球面コントラスト分散(PS-CD)を提案する。
PS-CDは難解な分割関数を避け、学習目的の一般化されたファミリーを提供する。
論文 参考訳(メタデータ) (2021-11-01T09:17:15Z) - Leveraging Global Parameters for Flow-based Neural Posterior Estimation [90.21090932619695]
実験観測に基づくモデルのパラメータを推定することは、科学的方法の中心である。
特に困難な設定は、モデルが強く不確定であるとき、すなわち、パラメータの異なるセットが同一の観測をもたらすときである。
本稿では,グローバルパラメータを共有する観測の補助的セットによって伝達される付加情報を利用して,その不確定性を破る手法を提案する。
論文 参考訳(メタデータ) (2021-02-12T12:23:13Z) - Non-asymptotic oracle inequalities for the Lasso in high-dimensional mixture of experts [2.794896499906838]
ソフトマックスゲーティング関数を持つガウスモデルとガウス専門家のクラスを考察する。
我々の知る限りでは、SGMoEモデルの$l_1$-regularization特性を非漸近的観点から初めて研究する。
我々は、SGMoEモデルに対するラッソ推定器のKulback-Leibler損失の非漸近的理論的制御を保証するために、ラッソペナルティの正規化パラメータの低い境界を与える。
論文 参考訳(メタデータ) (2020-09-22T15:23:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。