Fugu-MT 論文翻訳(概要): Learning large softmax mixtures with warm start EM

論文の概要: Learning large softmax mixtures with warm start EM

arxiv url: http://arxiv.org/abs/2409.09903v1
Date: Mon, 16 Sep 2024 00:14:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 17:00:44.974616
Title: Learning large softmax mixtures with warm start EM
Title（参考訳）: ウォームスタートEMを用いた大型ソフトマックスミキシングの学習
Authors: Xin Bing, Florentina Bunea, Jonathan Niles-Weed, Marten Wegkamp,
Abstract要約: 混合多項ロジット(mixed multinomial logits)は、数十年前に導入された、$p$の候補から属性を選択する確率をモデル化するための離散混合である。ソフトマックス混合はニューラルネットワークの最終層において、$mathbbRL$の大量のベクトルを確率ベクトルにマッピングするために日常的に使用される。
参考スコア（独自算出の注目度）: 17.081578976570437
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mixed multinomial logits are discrete mixtures introduced several decades ago to model the probability of choosing an attribute from $p$ possible candidates, in heterogeneous populations. The model has recently attracted attention in the AI literature, under the name softmax mixtures, where it is routinely used in the final layer of a neural network to map a large number $p$ of vectors in $\mathbb{R}^L$ to a probability vector. Despite its wide applicability and empirical success, statistically optimal estimators of the mixture parameters, obtained via algorithms whose running time scales polynomially in $L$, are not known. This paper provides a solution to this problem for contemporary applications, such as large language models, in which the mixture has a large number $p$ of support points, and the size $N$ of the sample observed from the mixture is also large. Our proposed estimator combines two classical estimators, obtained respectively via a method of moments (MoM) and the expectation-minimization (EM) algorithm. Although both estimator types have been studied, from a theoretical perspective, for Gaussian mixtures, no similar results exist for softmax mixtures for either procedure. We develop a new MoM parameter estimator based on latent moment estimation that is tailored to our model, and provide the first theoretical analysis for a MoM-based procedure in softmax mixtures. Although consistent, MoM for softmax mixtures can exhibit poor numerical performance, as observed other mixture models. Nevertheless, as MoM is provably in a neighborhood of the target, it can be used as warm start for any iterative algorithm. We study in detail the EM algorithm, and provide its first theoretical analysis for softmax mixtures. Our final proposal for parameter estimation is the EM algorithm with a MoM warm start.
Abstract（参考訳）: 混合多項ロジット(mixed multinomial logits)は、数十年前に導入された異種集団において、$p$の候補から属性を選択する確率をモデル化するために導入された離散混合である。このモデルは最近、ソフトマックス混合と呼ばれるAI文献において注目を集めており、ニューラルネットワークの最終層において、$\mathbb{R}^L$の大量のベクトルを確率ベクトルにマッピングするために日常的に使用される。その適用性と経験的成功にもかかわらず、ランニングタイムが$L$で多項式スケールするアルゴリズムによって得られる混合パラメータの統計的に最適な推定器は知られていない。本稿では, 大規模言語モデルなどの現代アプリケーションにおいて, 多数のサポートポイントが混在している場合や, 混合から観測されたサンプルのサイズが$N$である場合など, この問題に対する解決策を提供する。提案手法は,モーメント法 (MoM) と予測最小化法 (EM) の2種類の古典的推定器を組み合わせる。どちらの推定器タイプも理論的にはガウス混合については研究されているが、どちらの方法にもソフトマックス混合には同様の結果が存在しない。我々は,我々のモデルに適合した潜在モーメント推定に基づく新しいMoMパラメータ推定器を開発し,軟質マックス混合物におけるMoMに基づくプロシージャの最初の理論的解析を行った。整合性はあるものの、他の混合モデルと同様に、ソフトマックス混合物のMoMは低い数値性能を示す。それでも、MoMは確実にターゲットの近傍にあるため、任意の反復アルゴリズムのウォームスタートとして使用できる。 EMアルゴリズムを詳細に研究し,ソフトマックス混合物の理論的解析を行った。パラメータ推定のための最後の提案は、MoMウォームスタートを持つEMアルゴリズムである。

関連論文リスト

Learning Overspecified Gaussian Mixtures Exponentially Fast with the EM Algorithm [5.625796693054093]
過特定ガウス混合モデルに適用した場合のEMアルゴリズムの収束特性について検討する。集団EMアルゴリズムはクルバック・リーブラー距離(KL)において指数関数的に高速に収束することを示した。
論文参考訳（メタデータ） (2025-06-13T14:57:57Z)
Global Convergence of Gradient EM for Over-Parameterized Gaussian Mixtures [53.51230405648361]
勾配EMの力学を考察し, テンソル分解を用いて幾何的景観を特徴付ける。これは、m=2$という特別な場合を超えるEMや勾配EMに対する最初の大域収束と回復の結果である。
論文参考訳（メタデータ） (2025-06-06T23:32:38Z)
Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文参考訳（メタデータ） (2025-01-15T04:09:21Z)
Parallel simulation for sampling under isoperimetry and score-based diffusion models [56.39904484784127]
データサイズが大きくなるにつれて、イテレーションコストの削減が重要な目標になります。科学計算における初期値問題の並列シミュレーションの成功に触発されて,タスクをサンプリングするための並列Picard法を提案する。本研究は,動力学に基づくサンプリング・拡散モデルの科学的計算におけるシミュレーション手法の潜在的利点を強調した。
論文参考訳（メタデータ） (2024-12-10T11:50:46Z)
Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation [53.17668583030862]
一般関数近似の文脈において,無限水平平均逆マルコフ決定過程(AMDP)について検討する。最適化最適化(LOOP)と呼ばれる新しいアルゴリズムフレームワークを提案する。我々は LOOP がサブ線形 $tildemathcalO(mathrmpoly(d, mathrmsp(V*)) sqrtTbeta )$ regret を達成することを示す。
論文参考訳（メタデータ） (2024-04-19T06:24:22Z)
Gaussian Mixture Solvers for Diffusion Models [84.83349474361204]
本稿では,拡散モデルのためのGMSと呼ばれる,SDEに基づく新しい解法について紹介する。画像生成およびストロークベース合成におけるサンプル品質の観点から,SDEに基づく多くの解法よりも優れる。
論文参考訳（メタデータ） (2023-11-02T02:05:38Z)
Learning Mixtures of Gaussians Using the DDPM Objective [11.086440815804226]
本研究では, 拡散確率モデル(DDPM)の目標値の勾配勾配が混合モデルの真理パラメータを効率的に回収できることを証明した。この証明の鍵となる要素は、スコアベース手法と他の2つの分散学習アプローチの新たな関連性である。
論文参考訳（メタデータ） (2023-07-03T17:44:22Z)
Probabilistic Unrolling: Scalable, Inverse-Free Maximum Likelihood Estimation for Latent Gaussian Models [69.22568644711113]
我々は,モンテカルロサンプリングと反復線形解法を組み合わせた確率的アンローリングを導入し,行列逆転を回避した。理論的解析により,解法の繰り返しによる解法の解法と逆転が最大値推定の勾配推定を高速化することを示した。シミュレーションおよび実データ実験において、確率的アンロールは、モデル性能の損失を最小限に抑えながら、勾配EMよりも桁違いに高速な潜在ガウスモデルを学習することを示した。
論文参考訳（メタデータ） (2023-06-05T21:08:34Z)
Provable Multi-instance Deep AUC Maximization with Stochastic Pooling [39.46116380220933]
本稿では,マルチインスタンス学習(MIL)における深層AUC(DAM)の新たな応用について考察する。単一のクラスラベルは、インスタンスのバッグに割り当てられる(例えば、患者のためのスキャンの複数の2Dスライスなど)。
論文参考訳（メタデータ） (2023-05-14T01:29:56Z)
Learning Gaussian Mixtures Using the Wasserstein-Fisher-Rao Gradient Flow [12.455057637445174]
ガウス混合モデルを用いて非パラメトリック最大推定器(NPMLE)を計算するための新しいアルゴリズムを提案する。この手法は、ワッサーシュタイン-フィッシャー-ラオ幾何学を備えた確率測度空間上の勾配降下に基づく。提案アルゴリズムの有効性を確認するため,広範囲な数値実験を行った。
論文参考訳（メタデータ） (2023-01-04T18:59:35Z)
Beyond EM Algorithm on Over-specified Two-Component Location-Scale Gaussian Mixtures [29.26015093627193]
負の対数様関数の曲率を効率的に探索するために,指数位置更新法(ELU)アルゴリズムを開発した。 ELUアルゴリズムは、対数的な反復数の後、モデルの最終的な統計的半径に収束することを示した。
論文参考訳（メタデータ） (2022-05-23T06:49:55Z)
A Robust and Flexible EM Algorithm for Mixtures of Elliptical Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文参考訳（メタデータ） (2022-01-28T10:01:37Z)
Inverting brain grey matter models with likelihood-free inference: a tool for trustable cytoarchitecture measurements [62.997667081978825]
脳の灰白質細胞構造の特徴は、体密度と体積に定量的に敏感であり、dMRIでは未解決の課題である。我々は新しいフォワードモデル、特に新しい方程式系を提案し、比較的スパースなb殻を必要とする。次に,提案手法を逆転させるため,確率自由推論 (LFI) として知られるベイズ解析から最新のツールを適用した。
論文参考訳（メタデータ） (2021-11-15T09:08:27Z)
Clustering a Mixture of Gaussians with Unknown Covariance [4.821312633849745]
最大極大推定に基づくMax-Cut整数プログラムを導出する。最適な速度を得るが、2次サンプルサイズを必要とする効率的なスペクトルアルゴリズムを開発する。我々は Max-Cut プログラムを$k$-means プログラムに一般化する。
論文参考訳（メタデータ） (2021-10-04T17:59:20Z)
Mean-Square Analysis with An Application to Optimal Dimension Dependence of Langevin Monte Carlo [60.785586069299356]
この研究は、2-ワッサーシュタイン距離におけるサンプリング誤差の非同相解析のための一般的な枠組みを提供する。我々の理論解析は数値実験によってさらに検証される。
論文参考訳（メタデータ） (2021-09-08T18:00:05Z)
Learning Gaussian Mixtures with Generalised Linear Models: Precise Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。実験的リスク最小化による高次元推定器の精度を実証する。合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文参考訳（メタデータ） (2021-06-07T16:53:56Z)
A Rigorous Link Between Self-Organizing Maps and Gaussian Mixture Models [78.6363825307044]
本研究は、自己組織化マップ(SOM)とガウス混合モデル(GMM)の関係を数学的に扱うものである。我々は,エネルギーベースSOMモデルを勾配勾配下降と解釈できることを示した。このリンクはSOMsを生成確率モデルとして扱うことができ、SOMsを使用して外れ値を検出したりサンプリングしたりするための正式な正当性を与える。
論文参考訳（メタデータ） (2020-09-24T14:09:04Z)
Self-regularizing Property of Nonparametric Maximum Likelihood Estimator in Mixture Models [39.27013036481509]
一般ガウス混合に対する非パラメトリック最大度(NPMLE)モデルを導入する。サンプルサイズに基づくNPMLEは高い確率で$O(log n)$原子(質量点)を持つことを示す。特に、任意の混合は、$Olog選択を持つ有限の混合から統計的に入っている。
論文参考訳（メタデータ） (2020-08-19T03:39:13Z)
Mean-Field Approximation to Gaussian-Softmax Integral with Application to Uncertainty Estimation [23.38076756988258]
ディープニューラルネットワークにおける不確実性を定量化するための,新しい単一モデルに基づくアプローチを提案する。平均場近似式を用いて解析的に難解な積分を計算する。実験的に,提案手法は最先端の手法と比較して競合的に機能する。
論文参考訳（メタデータ） (2020-06-13T07:32:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。