論文の概要: Learning large softmax mixtures with warm start EM
- arxiv url: http://arxiv.org/abs/2409.09903v2
- Date: Sun, 03 Aug 2025 01:32:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.576454
- Title: Learning large softmax mixtures with warm start EM
- Title(参考訳): ウォームスタートEMを用いた大型ソフトマックスミキシングの学習
- Authors: Xin Bing, Florentina Bunea, Jonathan Niles-Weed, Marten Wegkamp,
- Abstract要約: ソフトマックス混合モデル(SMM)は、$p$候補からRRL$の$x_jを選択する確率をモデル化するために導入された離散的な$K$混合モデルである。
本稿では,高次元SMMにおけるEMアルゴリズムの包括的解析を行う。
- 参考スコア(独自算出の注目度): 17.081578976570437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Softmax mixture models (SMMs) are discrete $K$-mixtures introduced to model the probability of choosing an attribute $x_j \in \RR^L$ from $p$ candidates, in heterogeneous populations. They have been known as mixed multinomial logits in the econometrics literature, and are gaining traction in the LLM literature, where single softmax models are routinely used in the final layer of a neural network. This paper provides a comprehensive analysis of the EM algorithm for SMMs in high dimensions. Its population-level theoretical analysis forms the basis for proving (i) local identifiability, in SSMs with generic features and, further, via a stochastic argument, (ii) full identifiability in SSMs with random features, when $p$ is large enough. These are the first results in this direction for SSMs with $L > 1$. The population-level EM analysis characterizes the initialization radius for algorithmic convergence. This also guides the construction of warm starts of the sample level EM. Under suitable initialization, the EM algorithm is shown to recover the mixture atoms of the SSM at near-parametric rate. We provide two main directions for warm start construction, both based on a new method for estimating the moments of the mixing measure underlying an SSM with random design. First, we construct a method of moments (MoM) estimator of the mixture parameters, and provide its first theoretical analysis. While MoM can enjoy parametric rates of convergence, and thus can serve as a warm-start, the estimator's quality degrades exponentially in $K$. Our recommendation, when $K$ is not small, is to run the EM algorithm several times with random initializations. We again make use of the novel latent moments estimation method to estimate the $K$-dimensional subspace of the mixture atoms. Sampling from this subspace reduces substantially the number of required draws.
- Abstract(参考訳): ソフトマックス混合モデル (SMM) は異種集団において$p$候補から$x_j \in \RR^L$の属性を選択する確率をモデル化するために導入された離散$K$混合モデルである。
それらはエコノメトリー文学において混合多項対数(mixed multinomial logits)として知られており、LLM文学では、ニューラルネットワークの最終層で1つのソフトマックスモデルが日常的に使用されるようになった。
本稿では,高次元SMMにおけるEMアルゴリズムの包括的解析を行う。
その集団レベルの理論分析は証明の基礎を形成する
(i)局所的識別性、一般的な特徴を持つSSM、更には確率的議論による。
(ii)$p$が十分大きい場合、ランダムな特徴を持つSSMの完全識別性。
これらは、$L > 1$のSSMに対して、この方向の最初の結果である。
集団レベルのEM分析はアルゴリズム収束の初期化半径を特徴付ける。
これはまた、サンプルレベルのEMの温かい開始点の構築を導く。
適切な初期化の下で、EMアルゴリズムはSSMの混合原子をほぼパラメトリック速度で回収することを示した。
本研究では,SSMの裏側にある混合指標のモーメントをランダムな設計で推定する新しい手法に基づいて,温暖化開始構築のための2つの方向を示す。
まず、混合パラメータのモーメント推定法(MoM)を構築し、その最初の理論的解析を行う。
MoM はパラメトリック収束率を享受できるため、温暖化開始として機能するが、推定器の品質は指数関数的に$K$で低下する。
我々の推奨は、K$が小さければ、ランダム初期化でEMアルゴリズムを複数回実行することである。
我々は、新しい潜時モーメント推定法を用いて、混合原子の$K$次元部分空間を推定する。
この部分空間からのサンプリングは、要求される引き数を大幅に削減する。
関連論文リスト
- Learning Overspecified Gaussian Mixtures Exponentially Fast with the EM Algorithm [5.625796693054093]
過特定ガウス混合モデルに適用した場合のEMアルゴリズムの収束特性について検討する。
集団EMアルゴリズムはクルバック・リーブラー距離(KL)において指数関数的に高速に収束することを示した。
論文 参考訳(メタデータ) (2025-06-13T14:57:57Z) - Global Convergence of Gradient EM for Over-Parameterized Gaussian Mixtures [53.51230405648361]
勾配EMの力学を考察し, テンソル分解を用いて幾何的景観を特徴付ける。
これは、m=2$という特別な場合を超えるEMや勾配EMに対する最初の大域収束と回復の結果である。
論文 参考訳(メタデータ) (2025-06-06T23:32:38Z) - Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。
本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文 参考訳(メタデータ) (2025-01-15T04:09:21Z) - Parallel simulation for sampling under isoperimetry and score-based diffusion models [56.39904484784127]
データサイズが大きくなるにつれて、イテレーションコストの削減が重要な目標になります。
科学計算における初期値問題の並列シミュレーションの成功に触発されて,タスクをサンプリングするための並列Picard法を提案する。
本研究は,動力学に基づくサンプリング・拡散モデルの科学的計算におけるシミュレーション手法の潜在的利点を強調した。
論文 参考訳(メタデータ) (2024-12-10T11:50:46Z) - Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation [53.17668583030862]
一般関数近似の文脈において,無限水平平均逆マルコフ決定過程(AMDP)について検討する。
最適化最適化(LOOP)と呼ばれる新しいアルゴリズムフレームワークを提案する。
我々は LOOP がサブ線形 $tildemathcalO(mathrmpoly(d, mathrmsp(V*)) sqrtTbeta )$ regret を達成することを示す。
論文 参考訳(メタデータ) (2024-04-19T06:24:22Z) - Gaussian Mixture Solvers for Diffusion Models [84.83349474361204]
本稿では,拡散モデルのためのGMSと呼ばれる,SDEに基づく新しい解法について紹介する。
画像生成およびストロークベース合成におけるサンプル品質の観点から,SDEに基づく多くの解法よりも優れる。
論文 参考訳(メタデータ) (2023-11-02T02:05:38Z) - Learning Mixtures of Gaussians Using the DDPM Objective [11.086440815804226]
本研究では, 拡散確率モデル(DDPM)の目標値の勾配勾配が混合モデルの真理パラメータを効率的に回収できることを証明した。
この証明の鍵となる要素は、スコアベース手法と他の2つの分散学習アプローチの新たな関連性である。
論文 参考訳(メタデータ) (2023-07-03T17:44:22Z) - Probabilistic Unrolling: Scalable, Inverse-Free Maximum Likelihood
Estimation for Latent Gaussian Models [69.22568644711113]
我々は,モンテカルロサンプリングと反復線形解法を組み合わせた確率的アンローリングを導入し,行列逆転を回避した。
理論的解析により,解法の繰り返しによる解法の解法と逆転が最大値推定の勾配推定を高速化することを示した。
シミュレーションおよび実データ実験において、確率的アンロールは、モデル性能の損失を最小限に抑えながら、勾配EMよりも桁違いに高速な潜在ガウスモデルを学習することを示した。
論文 参考訳(メタデータ) (2023-06-05T21:08:34Z) - Provable Multi-instance Deep AUC Maximization with Stochastic Pooling [39.46116380220933]
本稿では,マルチインスタンス学習(MIL)における深層AUC(DAM)の新たな応用について考察する。
単一のクラスラベルは、インスタンスのバッグに割り当てられる(例えば、患者のためのスキャンの複数の2Dスライスなど)。
論文 参考訳(メタデータ) (2023-05-14T01:29:56Z) - Learning Gaussian Mixtures Using the Wasserstein-Fisher-Rao Gradient
Flow [12.455057637445174]
ガウス混合モデルを用いて非パラメトリック最大推定器(NPMLE)を計算するための新しいアルゴリズムを提案する。
この手法は、ワッサーシュタイン-フィッシャー-ラオ幾何学を備えた確率測度空間上の勾配降下に基づく。
提案アルゴリズムの有効性を確認するため,広範囲な数値実験を行った。
論文 参考訳(メタデータ) (2023-01-04T18:59:35Z) - Beyond EM Algorithm on Over-specified Two-Component Location-Scale
Gaussian Mixtures [29.26015093627193]
負の対数様関数の曲率を効率的に探索するために,指数位置更新法(ELU)アルゴリズムを開発した。
ELUアルゴリズムは、対数的な反復数の後、モデルの最終的な統計的半径に収束することを示した。
論文 参考訳(メタデータ) (2022-05-23T06:49:55Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - Inverting brain grey matter models with likelihood-free inference: a
tool for trustable cytoarchitecture measurements [62.997667081978825]
脳の灰白質細胞構造の特徴は、体密度と体積に定量的に敏感であり、dMRIでは未解決の課題である。
我々は新しいフォワードモデル、特に新しい方程式系を提案し、比較的スパースなb殻を必要とする。
次に,提案手法を逆転させるため,確率自由推論 (LFI) として知られるベイズ解析から最新のツールを適用した。
論文 参考訳(メタデータ) (2021-11-15T09:08:27Z) - Clustering a Mixture of Gaussians with Unknown Covariance [4.821312633849745]
最大極大推定に基づくMax-Cut整数プログラムを導出する。
最適な速度を得るが、2次サンプルサイズを必要とする効率的なスペクトルアルゴリズムを開発する。
我々は Max-Cut プログラムを$k$-means プログラムに一般化する。
論文 参考訳(メタデータ) (2021-10-04T17:59:20Z) - Mean-Square Analysis with An Application to Optimal Dimension Dependence
of Langevin Monte Carlo [60.785586069299356]
この研究は、2-ワッサーシュタイン距離におけるサンプリング誤差の非同相解析のための一般的な枠組みを提供する。
我々の理論解析は数値実験によってさらに検証される。
論文 参考訳(メタデータ) (2021-09-08T18:00:05Z) - Learning Gaussian Mixtures with Generalised Linear Models: Precise
Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。
実験的リスク最小化による高次元推定器の精度を実証する。
合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文 参考訳(メタデータ) (2021-06-07T16:53:56Z) - A Rigorous Link Between Self-Organizing Maps and Gaussian Mixture Models [78.6363825307044]
本研究は、自己組織化マップ(SOM)とガウス混合モデル(GMM)の関係を数学的に扱うものである。
我々は,エネルギーベースSOMモデルを勾配勾配下降と解釈できることを示した。
このリンクはSOMsを生成確率モデルとして扱うことができ、SOMsを使用して外れ値を検出したりサンプリングしたりするための正式な正当性を与える。
論文 参考訳(メタデータ) (2020-09-24T14:09:04Z) - Self-regularizing Property of Nonparametric Maximum Likelihood Estimator
in Mixture Models [39.27013036481509]
一般ガウス混合に対する非パラメトリック最大度(NPMLE)モデルを導入する。
サンプルサイズに基づくNPMLEは高い確率で$O(log n)$原子(質量点)を持つことを示す。
特に、任意の混合は、$Olog選択を持つ有限の混合から統計的に入っている。
論文 参考訳(メタデータ) (2020-08-19T03:39:13Z) - Mean-Field Approximation to Gaussian-Softmax Integral with Application
to Uncertainty Estimation [23.38076756988258]
ディープニューラルネットワークにおける不確実性を定量化するための,新しい単一モデルに基づくアプローチを提案する。
平均場近似式を用いて解析的に難解な積分を計算する。
実験的に,提案手法は最先端の手法と比較して競合的に機能する。
論文 参考訳(メタデータ) (2020-06-13T07:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。