論文の概要: Learning Mixtures of Experts with EM
- arxiv url: http://arxiv.org/abs/2411.06056v1
- Date: Sat, 09 Nov 2024 03:44:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:12:07.029847
- Title: Learning Mixtures of Experts with EM
- Title(参考訳): EMによるエキスパートの混合学習
- Authors: Quentin Fruytier, Aryan Mokhtari, Sujay Sanghavi,
- Abstract要約: エキスパートの混合(MoE)は、入力空間を含む機械学習モデルであり、各パーティションでトレーニングされた別の"エキスパート"モデルである。
本稿では,MoEモデルのトレーニングにおける期待最大化(EM)アルゴリズムの有効性について検討する。
- 参考スコア(独自算出の注目度): 28.48469221248906
- License:
- Abstract: Mixtures of Experts (MoE) are Machine Learning models that involve partitioning the input space, with a separate "expert" model trained on each partition. Recently, MoE have become popular as components in today's large language models as a means to reduce training and inference costs. There, the partitioning function and the experts are both learnt jointly via gradient descent on the log-likelihood. In this paper we focus on studying the efficiency of the Expectation Maximization (EM) algorithm for the training of MoE models. We first rigorously analyze EM for the cases of linear or logistic experts, where we show that EM is equivalent to Mirror Descent with unit step size and a Kullback-Leibler Divergence regularizer. This perspective allows us to derive new convergence results and identify conditions for local linear convergence based on the signal-to-noise ratio (SNR). Experiments on synthetic and (small-scale) real-world data show that EM outperforms the gradient descent algorithm both in terms of convergence rate and the achieved accuracy.
- Abstract(参考訳): エキスパートの混合(MoE)は、入力空間の分割を含む機械学習モデルであり、各パーティションでトレーニングされた個別の"エキスパート"モデルである。
最近、トレーニングと推論コストを削減する手段として、MoEは、今日の大規模言語モデルのコンポーネントとして人気を集めています。
そこで、分割関数と専門家は、ログのような勾配降下によって共同で学習される。
本稿では,MoEモデルのトレーニングにおける期待最大化(EM)アルゴリズムの効率性について検討する。
まず, 線形あるいはロジスティックな専門家の場合のEMを厳密に解析し, EM は単位ステップサイズでミラーDescent と同値であり, Kullback-Leibler Divergence regularizer であることを示す。
この観点は,信号対雑音比(SNR)に基づいて,新しい収束結果の導出と局所収束条件の同定を可能にする。
合成および(小規模な)実世界のデータに対する実験により、EMは収束率と達成された精度の両方において勾配降下アルゴリズムより優れていることが示された。
関連論文リスト
- SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Efficient Training of Energy-Based Models Using Jarzynski Equality [13.636994997309307]
エネルギーベースモデル(英: Energy-based model、EBM)は、統計物理学にインスパイアされた生成モデルである。
モデルパラメータに対する勾配の計算には、モデルの分布をサンプリングする必要がある。
ここでは、ジャジンスキーの等式に基づく非平衡熱力学の結果を用いて、この計算を効率的に行う方法を示す。
論文 参考訳(メタデータ) (2023-05-30T21:07:52Z) - On the Influence of Enforcing Model Identifiability on Learning dynamics
of Gaussian Mixture Models [14.759688428864159]
特異モデルからサブモデルを抽出する手法を提案する。
本手法はトレーニング中のモデルの識別性を強制する。
この手法がディープニューラルネットワークのようなより複雑なモデルにどのように適用できるかを示す。
論文 参考訳(メタデータ) (2022-06-17T07:50:22Z) - Improvements to Supervised EM Learning of Shared Kernel Models by
Feature Space Partitioning [0.0]
本稿では、EMトレーニングアルゴリズムの導出における厳密さの欠如と、その手法の計算複雑性について述べる。
まず、ガウス共有カーネルモデル PRBF 分類器に対して、EM の詳細な導出を行う。
結果のSKEMアルゴリズムの複雑さを軽減するために、特徴空間を変数の非重複部分集合の$R$に分割する。
論文 参考訳(メタデータ) (2022-05-31T09:18:58Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Training Deep Energy-Based Models with f-Divergence Minimization [113.97274898282343]
深部エネルギーベースモデル(EBM)は分布パラメトリゼーションにおいて非常に柔軟であるが、計算的に困難である。
所望のf偏差を用いてEMMを訓練するための、f-EBMと呼ばれる一般的な変分フレームワークを提案する。
実験の結果,F-EBMは対照的なばらつきよりも優れており,KL以外のf-divergencesを用いたEBMの訓練の利点も示された。
論文 参考訳(メタデータ) (2020-03-06T23:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。