論文の概要: Learning large softmax mixtures with warm start EM
- arxiv url: http://arxiv.org/abs/2409.09903v1
- Date: Mon, 16 Sep 2024 00:14:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 17:00:44.974616
- Title: Learning large softmax mixtures with warm start EM
- Title(参考訳): ウォームスタートEMを用いた大型ソフトマックスミキシングの学習
- Authors: Xin Bing, Florentina Bunea, Jonathan Niles-Weed, Marten Wegkamp,
- Abstract要約: 混合多項ロジット(mixed multinomial logits)は、数十年前に導入された、$p$の候補から属性を選択する確率をモデル化するための離散混合である。
ソフトマックス混合はニューラルネットワークの最終層において、$mathbbRL$の大量のベクトルを確率ベクトルにマッピングするために日常的に使用される。
- 参考スコア(独自算出の注目度): 17.081578976570437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixed multinomial logits are discrete mixtures introduced several decades ago to model the probability of choosing an attribute from $p$ possible candidates, in heterogeneous populations. The model has recently attracted attention in the AI literature, under the name softmax mixtures, where it is routinely used in the final layer of a neural network to map a large number $p$ of vectors in $\mathbb{R}^L$ to a probability vector. Despite its wide applicability and empirical success, statistically optimal estimators of the mixture parameters, obtained via algorithms whose running time scales polynomially in $L$, are not known. This paper provides a solution to this problem for contemporary applications, such as large language models, in which the mixture has a large number $p$ of support points, and the size $N$ of the sample observed from the mixture is also large. Our proposed estimator combines two classical estimators, obtained respectively via a method of moments (MoM) and the expectation-minimization (EM) algorithm. Although both estimator types have been studied, from a theoretical perspective, for Gaussian mixtures, no similar results exist for softmax mixtures for either procedure. We develop a new MoM parameter estimator based on latent moment estimation that is tailored to our model, and provide the first theoretical analysis for a MoM-based procedure in softmax mixtures. Although consistent, MoM for softmax mixtures can exhibit poor numerical performance, as observed other mixture models. Nevertheless, as MoM is provably in a neighborhood of the target, it can be used as warm start for any iterative algorithm. We study in detail the EM algorithm, and provide its first theoretical analysis for softmax mixtures. Our final proposal for parameter estimation is the EM algorithm with a MoM warm start.
- Abstract(参考訳): 混合多項ロジット(mixed multinomial logits)は、数十年前に導入された異種集団において、$p$の候補から属性を選択する確率をモデル化するために導入された離散混合である。
このモデルは最近、ソフトマックス混合と呼ばれるAI文献において注目を集めており、ニューラルネットワークの最終層において、$\mathbb{R}^L$の大量のベクトルを確率ベクトルにマッピングするために日常的に使用される。
その適用性と経験的成功にもかかわらず、ランニングタイムが$L$で多項式スケールするアルゴリズムによって得られる混合パラメータの統計的に最適な推定器は知られていない。
本稿では, 大規模言語モデルなどの現代アプリケーションにおいて, 多数のサポートポイントが混在している場合や, 混合から観測されたサンプルのサイズが$N$である場合など, この問題に対する解決策を提供する。
提案手法は,モーメント法 (MoM) と予測最小化法 (EM) の2種類の古典的推定器を組み合わせる。
どちらの推定器タイプも理論的にはガウス混合については研究されているが、どちらの方法にもソフトマックス混合には同様の結果が存在しない。
我々は,我々のモデルに適合した潜在モーメント推定に基づく新しいMoMパラメータ推定器を開発し,軟質マックス混合物におけるMoMに基づくプロシージャの最初の理論的解析を行った。
整合性はあるものの、他の混合モデルと同様に、ソフトマックス混合物のMoMは低い数値性能を示す。
それでも、MoMは確実にターゲットの近傍にあるため、任意の反復アルゴリズムのウォームスタートとして使用できる。
EMアルゴリズムを詳細に研究し,ソフトマックス混合物の理論的解析を行った。
パラメータ推定のための最後の提案は、MoMウォームスタートを持つEMアルゴリズムである。
関連論文リスト
- Gaussian Mixture Solvers for Diffusion Models [84.83349474361204]
本稿では,拡散モデルのためのGMSと呼ばれる,SDEに基づく新しい解法について紹介する。
画像生成およびストロークベース合成におけるサンプル品質の観点から,SDEに基づく多くの解法よりも優れる。
論文 参考訳(メタデータ) (2023-11-02T02:05:38Z) - Learning Mixtures of Gaussians Using the DDPM Objective [11.086440815804226]
本研究では, 拡散確率モデル(DDPM)の目標値の勾配勾配が混合モデルの真理パラメータを効率的に回収できることを証明した。
この証明の鍵となる要素は、スコアベース手法と他の2つの分散学習アプローチの新たな関連性である。
論文 参考訳(メタデータ) (2023-07-03T17:44:22Z) - Probabilistic Unrolling: Scalable, Inverse-Free Maximum Likelihood
Estimation for Latent Gaussian Models [69.22568644711113]
我々は,モンテカルロサンプリングと反復線形解法を組み合わせた確率的アンローリングを導入し,行列逆転を回避した。
理論的解析により,解法の繰り返しによる解法の解法と逆転が最大値推定の勾配推定を高速化することを示した。
シミュレーションおよび実データ実験において、確率的アンロールは、モデル性能の損失を最小限に抑えながら、勾配EMよりも桁違いに高速な潜在ガウスモデルを学習することを示した。
論文 参考訳(メタデータ) (2023-06-05T21:08:34Z) - Learning Gaussian Mixtures Using the Wasserstein-Fisher-Rao Gradient
Flow [12.455057637445174]
ガウス混合モデルを用いて非パラメトリック最大推定器(NPMLE)を計算するための新しいアルゴリズムを提案する。
この手法は、ワッサーシュタイン-フィッシャー-ラオ幾何学を備えた確率測度空間上の勾配降下に基づく。
提案アルゴリズムの有効性を確認するため,広範囲な数値実験を行った。
論文 参考訳(メタデータ) (2023-01-04T18:59:35Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - Inverting brain grey matter models with likelihood-free inference: a
tool for trustable cytoarchitecture measurements [62.997667081978825]
脳の灰白質細胞構造の特徴は、体密度と体積に定量的に敏感であり、dMRIでは未解決の課題である。
我々は新しいフォワードモデル、特に新しい方程式系を提案し、比較的スパースなb殻を必要とする。
次に,提案手法を逆転させるため,確率自由推論 (LFI) として知られるベイズ解析から最新のツールを適用した。
論文 参考訳(メタデータ) (2021-11-15T09:08:27Z) - Clustering a Mixture of Gaussians with Unknown Covariance [4.821312633849745]
最大極大推定に基づくMax-Cut整数プログラムを導出する。
最適な速度を得るが、2次サンプルサイズを必要とする効率的なスペクトルアルゴリズムを開発する。
我々は Max-Cut プログラムを$k$-means プログラムに一般化する。
論文 参考訳(メタデータ) (2021-10-04T17:59:20Z) - Mean-Square Analysis with An Application to Optimal Dimension Dependence
of Langevin Monte Carlo [60.785586069299356]
この研究は、2-ワッサーシュタイン距離におけるサンプリング誤差の非同相解析のための一般的な枠組みを提供する。
我々の理論解析は数値実験によってさらに検証される。
論文 参考訳(メタデータ) (2021-09-08T18:00:05Z) - Learning Gaussian Mixtures with Generalised Linear Models: Precise
Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。
実験的リスク最小化による高次元推定器の精度を実証する。
合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文 参考訳(メタデータ) (2021-06-07T16:53:56Z) - Self-regularizing Property of Nonparametric Maximum Likelihood Estimator
in Mixture Models [39.27013036481509]
一般ガウス混合に対する非パラメトリック最大度(NPMLE)モデルを導入する。
サンプルサイズに基づくNPMLEは高い確率で$O(log n)$原子(質量点)を持つことを示す。
特に、任意の混合は、$Olog選択を持つ有限の混合から統計的に入っている。
論文 参考訳(メタデータ) (2020-08-19T03:39:13Z) - Mean-Field Approximation to Gaussian-Softmax Integral with Application
to Uncertainty Estimation [23.38076756988258]
ディープニューラルネットワークにおける不確実性を定量化するための,新しい単一モデルに基づくアプローチを提案する。
平均場近似式を用いて解析的に難解な積分を計算する。
実験的に,提案手法は最先端の手法と比較して競合的に機能する。
論文 参考訳(メタデータ) (2020-06-13T07:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。