論文の概要: Global Convergence of Gradient EM for Over-Parameterized Gaussian Mixtures
- arxiv url: http://arxiv.org/abs/2506.06584v1
- Date: Fri, 06 Jun 2025 23:32:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.343992
- Title: Global Convergence of Gradient EM for Over-Parameterized Gaussian Mixtures
- Title(参考訳): 過パラメータ化ガウス混合系のグラディエントEMの大域的収束
- Authors: Mo Zhou, Weihang Xu, Maryam Fazel, Simon S. Du,
- Abstract要約: 勾配EMの力学を考察し, テンソル分解を用いて幾何的景観を特徴付ける。
これは、m=2$という特別な場合を超えるEMや勾配EMに対する最初の大域収束と回復の結果である。
- 参考スコア(独自算出の注目度): 53.51230405648361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning Gaussian Mixture Models (GMMs) is a fundamental problem in machine learning, with the Expectation-Maximization (EM) algorithm and its popular variant gradient EM being arguably the most widely used algorithms in practice. In the exact-parameterized setting, where both the ground truth GMM and the learning model have the same number of components $m$, a vast line of work has aimed to establish rigorous recovery guarantees for EM. However, global convergence has only been proven for the case of $m=2$, and EM is known to fail to recover the ground truth when $m\geq 3$. In this paper, we consider the $\textit{over-parameterized}$ setting, where the learning model uses $n>m$ components to fit an $m$-component ground truth GMM. In contrast to the exact-parameterized case, we provide a rigorous global convergence guarantee for gradient EM. Specifically, for any well separated GMMs in general position, we prove that with only mild over-parameterization $n = \Omega(m\log m)$, randomly initialized gradient EM converges globally to the ground truth at a polynomial rate with polynomial samples. Our analysis proceeds in two stages and introduces a suite of novel tools for Gaussian Mixture analysis. We use Hermite polynomials to study the dynamics of gradient EM and employ tensor decomposition to characterize the geometric landscape of the likelihood loss. This is the first global convergence and recovery result for EM or Gradient EM beyond the special case of $m=2$.
- Abstract(参考訳): 学習ガウス混合モデル(GMM)は機械学習の基本的な問題であり、期待-最大化(EM)アルゴリズムとその一般的な変分勾配EMは、実際最も広く使われているアルゴリズムである。
基礎的真理GMMと学習モデルが同じコンポーネント数$m$の正確なパラメータ設定では、EMの厳密な回復保証を確立することを目的としている。
しかし、大域収束は$m=2$の場合のみ証明されており、m\geq 3$のとき、EMは基底真実を回復できないことが知られている。
本稿では、学習モデルが$m$-component ground truth GMMに適合するために$n>m$コンポーネントを使用する場合、$\textit{over-parameterized}$setを考える。
正確なパラメータ化の場合とは対照的に、勾配EMに対して厳密な大域収束を保証する。
具体的には、任意のよく分離された GMM に対して、弱過パラメータ化 $n = \Omega(m\log m)$ で、ランダムに初期化された勾配 EM が多項式サンプルを持つ多項式速度で大域的に基底真理に収束することを証明する。
分析は2段階に及び,ガウス混合解析のための新しいツール群を紹介する。
我々は、Hermite多項式を用いて勾配EMの力学を研究し、テンソル分解を用いて、チャンス損失の幾何学的景観を特徴づける。
これは、m=2$という特別な場合を超えた、EM あるいは Gradient EM に対する最初の大域収束と回復の結果である。
関連論文リスト
- Toward Global Convergence of Gradient EM for Over-Parameterized Gaussian Mixture Models [47.294535652946095]
ガウス混合モデル(GMM)の勾配予測-最大化(EM)アルゴリズムについて検討する。
これは、2ドル以上の成分を持つガウス混合に対する最初の大域収束結果である。
論文 参考訳(メタデータ) (2024-06-29T16:44:29Z) - MGDA Converges under Generalized Smoothness, Provably [27.87166415148172]
多目的最適化(MOO)はマルチタスク学習など様々な分野で注目を集めている。
最近の研究は、理論解析を伴う効果的なアルゴリズムを提供しているが、それらは標準の$L$-smoothあるいは有界勾配仮定によって制限されている。
一般化された$ell$-smooth損失関数のより一般的で現実的なクラスについて研究し、$ell$は勾配ノルムの一般非減少関数である。
論文 参考訳(メタデータ) (2024-05-29T18:36:59Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Learning Gaussian Mixtures with Generalised Linear Models: Precise
Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。
実験的リスク最小化による高次元推定器の精度を実証する。
合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文 参考訳(メタデータ) (2021-06-07T16:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。