論文の概要: Towards Convergence Rates for Parameter Estimation in Gaussian-gated
Mixture of Experts
- arxiv url: http://arxiv.org/abs/2305.07572v2
- Date: Fri, 9 Feb 2024 14:51:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 21:07:36.988597
- Title: Towards Convergence Rates for Parameter Estimation in Gaussian-gated
Mixture of Experts
- Title(参考訳): 専門家のガウスゲート混合におけるパラメータ推定の収束率に向けて
- Authors: Huy Nguyen, TrungTin Nguyen, Khai Nguyen, Nhat Ho
- Abstract要約: ガウスゲートMOEモデルにおける最大推定値(MLE)の収束解析を行う。
以上の結果から,MLEはガウスゲーティング関数の位置パラメータの2つの相補的な設定の下で異なる挙動を示すことが明らかとなった。
特に、これらの挙動は2つの異なる方程式系の可解性によって特徴づけられる。
- 参考スコア(独自算出の注目度): 40.24720443257405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Originally introduced as a neural network for ensemble learning, mixture of
experts (MoE) has recently become a fundamental building block of highly
successful modern deep neural networks for heterogeneous data analysis in
several applications of machine learning and statistics. Despite its popularity
in practice, a satisfactory level of theoretical understanding of the MoE model
is far from complete. To shed new light on this problem, we provide a
convergence analysis for maximum likelihood estimation (MLE) in the
Gaussian-gated MoE model. The main challenge of that analysis comes from the
inclusion of covariates in the Gaussian gating functions and expert networks,
which leads to their intrinsic interaction via some partial differential
equations with respect to their parameters. We tackle these issues by designing
novel Voronoi loss functions among parameters to accurately capture the
heterogeneity of parameter estimation rates. Our findings reveal that the MLE
has distinct behaviors under two complement settings of location parameters of
the Gaussian gating functions, namely when all these parameters are non-zero
versus when at least one among them vanishes. Notably, these behaviors can be
characterized by the solvability of two different systems of polynomial
equations. Finally, we conduct a simulation study to empirically verify our
theoretical results.
- Abstract(参考訳): 当初、アンサンブル学習のためのニューラルネットワークとして導入されたmixed of experts (moe)は、機械学習と統計学のいくつかの応用において、不均質なデータ分析のために高度に成功した現代のディープニューラルネットワークの基本構築ブロックとなっている。
実際にはその人気にもかかわらず、moeモデルの十分な理論的な理解は完成にはほど遠い。
この問題に新たな光を当てるために,gaussian-gated moeモデルにおける最大度推定(mle)の収束解析を行う。
この分析の主な課題は、ガウスのゲーティング関数とエキスパートネットワークに共変量を含めることであり、これはそれらのパラメータに関する偏微分方程式を通して固有の相互作用をもたらす。
本稿では,パラメータ間の新しいボロノイ損失関数を設計し,パラメータ推定率の不均一性を正確に把握する。
以上の結果から,mle はガウスゲーティング関数の位置パラメータの2つの補完的設定,すなわち,これらのパラメータが全て 0 でないときと,少なくとも 1 つが消失する時とで異なる挙動を持つことが明らかとなった。
特に、これらの挙動は多項式方程式の2つの異なる系の可解性によって特徴づけられる。
最後に,理論結果を実証的に検証するためのシミュレーション研究を行う。
関連論文リスト
- Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。
IGDは線形収束速度で大域的に最適解を収束することを示す。
論文 参考訳(メタデータ) (2024-07-03T06:10:41Z) - Proximal Interacting Particle Langevin Algorithms [0.0]
本稿では,潜時変動モデルにおける推論と学習のためのPIPLAアルゴリズムを提案する。
非微分不可能な統計モデルにおけるパラメータ推定の問題に合わせた、新しい近位IPLAファミリー内のいくつかの変種を提案する。
我々の理論と実験は、PIPLAファミリーが非微分可能モデルの潜在変数モデルにおけるパラメータ推定問題のデファクト選択であることを示している。
論文 参考訳(メタデータ) (2024-06-20T13:16:41Z) - A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts [28.13187489224953]
本稿では,入力をゲーティング関数に渡す前に変換する改良型ソフトマックスゲーティング関数を提案する。
その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-22T05:32:19Z) - Heterogeneous Multi-Task Gaussian Cox Processes [61.67344039414193]
異種相関タスクを共同でモデル化するためのマルチタスクガウスコックスプロセスの新たな拡張を提案する。
MOGPは、分類、回帰、ポイントプロセスタスクの専用可能性のパラメータに先行して、異種タスク間の情報の共有を容易にする。
モデルパラメータを推定するための閉形式反復更新を実現する平均場近似を導出する。
論文 参考訳(メタデータ) (2023-08-29T15:01:01Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - On the Influence of Enforcing Model Identifiability on Learning dynamics
of Gaussian Mixture Models [14.759688428864159]
特異モデルからサブモデルを抽出する手法を提案する。
本手法はトレーニング中のモデルの識別性を強制する。
この手法がディープニューラルネットワークのようなより複雑なモデルにどのように適用できるかを示す。
論文 参考訳(メタデータ) (2022-06-17T07:50:22Z) - A Unified View of Stochastic Hamiltonian Sampling [18.300078015845262]
この研究は、後続サンプリングのためのハミルトン微分方程式(SDE)の理論的性質を再考する。
数値SDEシミュレーションから生じる2種類の誤差について検討し, 離散化誤差と雑音勾配推定による誤差について検討した。
論文 参考訳(メタデータ) (2021-06-30T16:50:11Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。
ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。
ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文 参考訳(メタデータ) (2021-04-12T16:23:37Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。