論文の概要: On Parameter Estimation in Deviated Gaussian Mixture of Experts
- arxiv url: http://arxiv.org/abs/2402.05220v2
- Date: Mon, 24 Jun 2024 05:13:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 02:01:18.238613
- Title: On Parameter Estimation in Deviated Gaussian Mixture of Experts
- Title(参考訳): 脱落したガウス混合専門家のパラメータ推定について
- Authors: Huy Nguyen, Khai Nguyen, Nhat Ho,
- Abstract要約: 本稿では, ガウス混合系のパラメータ推定問題について考察する。
データは$g_0(Y|X)$(null仮説)から生成されるか、あるいはその混合物全体から生成される。
我々は,最大推定値の収束率を捉えるために,新しいボロノイ型損失関数を構築した。
- 参考スコア(独自算出の注目度): 37.439768024583955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the parameter estimation problem in the deviated Gaussian mixture of experts in which the data are generated from $(1 - \lambda^{\ast}) g_0(Y| X)+ \lambda^{\ast} \sum_{i = 1}^{k_{\ast}} p_{i}^{\ast} f(Y|(a_{i}^{\ast})^{\top}X+b_i^{\ast},\sigma_{i}^{\ast})$, where $X, Y$ are respectively a covariate vector and a response variable, $g_{0}(Y|X)$ is a known function, $\lambda^{\ast} \in [0, 1]$ is true but unknown mixing proportion, and $(p_{i}^{\ast}, a_{i}^{\ast}, b_{i}^{\ast}, \sigma_{i}^{\ast})$ for $1 \leq i \leq k^{\ast}$ are unknown parameters of the Gaussian mixture of experts. This problem arises from the goodness-of-fit test when we would like to test whether the data are generated from $g_{0}(Y|X)$ (null hypothesis) or they are generated from the whole mixture (alternative hypothesis). Based on the algebraic structure of the expert functions and the distinguishability between $g_0$ and the mixture part, we construct novel Voronoi-based loss functions to capture the convergence rates of maximum likelihood estimation (MLE) for our models. We further demonstrate that our proposed loss functions characterize the local convergence rates of parameter estimation more accurately than the generalized Wasserstein, a loss function being commonly used for estimating parameters in the Gaussian mixture of experts.
- Abstract(参考訳): 1 - \lambda^{\ast}) g_0(Y| X)+ \lambda^{\ast} \sum_{i = 1}^{k_{\ast}} p_{i}^{\ast} f(Y|(a_{i}^{\ast})^{\top}X+b_i^{\ast},\sigma_{i}^{\ast})$, $X, Y$はそれぞれ共変量ベクトルと応答変数である場合、$g_{0}(Y|X)$は既知の関数であり、$\lambda^{\ast} \in [0, 1]$は真だが未知の混合であり、$(p_{i}^{\ast}, a_{i}^{\ast}, b_{i}^{\ast})$は未知の混合である。
この問題は、データが$g_{0}(Y|X)$(null仮説)から生成されるか、あるいはそれらが混合全体(代替仮説)から生成されるかを検証したいときに、好適なテストから生じる。
エキスパート関数の代数的構造と$g_0$と混合部分との区別性に基づいて、我々はモデルに対する最大推定値(MLE)の収束率を取得するために、新しいボロノイ型損失関数を構築した。
さらに,提案した損失関数は,一般のワッサーシュタインよりも高精度にパラメータ推定の局所収束率を特徴付けることを示した。
関連論文リスト
- Estimating the Mixing Coefficients of Geometrically Ergodic Markov
Processes [5.00389879175348]
実数値の幾何学的エルゴード的マルコフ過程の個々の$beta$-mixing係数を1つのサンプルパスから推定する。
予想される誤差率は$mathcal O(log(n) n-1/2)$である。
論文 参考訳(メタデータ) (2024-02-11T20:17:10Z) - Statistical Learning under Heterogeneous Distribution Shift [71.8393170225794]
ground-truth predictor is additive $mathbbE[mathbfz mid mathbfx,mathbfy] = f_star(mathbfx) +g_star(mathbfy)$.
論文 参考訳(メタデータ) (2023-02-27T16:34:21Z) - Universality laws for Gaussian mixtures in generalized linear models [22.154969876570238]
一般化線形推定器の族(Theta_1, dots, Theta_M)の合同統計について検討する。
これにより、トレーニングや一般化エラーなど、異なる量の興味の普遍性を証明できる。
我々は,本研究の結果を,アンサンブルや不確実性など,興味のあるさまざまな機械学習タスクに応用することについて議論する。
論文 参考訳(メタデータ) (2023-02-17T15:16:06Z) - Structure Learning in Graphical Models from Indirect Observations [17.521712510832558]
本稿では、パラメータ法と非パラメトリック法の両方を用いて、Rp$における$p$次元ランダムベクトル$Xのグラフィカル構造を学習する。
温和な条件下では、グラフ構造推定器が正しい構造を得ることができることを示す。
論文 参考訳(メタデータ) (2022-05-06T19:24:44Z) - Beyond Black Box Densities: Parameter Learning for the Deviated
Components [15.501680326749515]
既知の密度関数の推定は、以前はブラックボックス法によって得られていた可能性がある。
データセットの複雑さが増大すると、既知の推定値から混合分布によって真の密度が逸脱する可能性がある。
我々はワッサーシュタイン計量の下で、最大推定値$lambda*$と$G*$の収束率を確立する。
論文 参考訳(メタデータ) (2022-02-05T22:44:20Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - The Sample Complexity of Robust Covariance Testing [56.98280399449707]
i. i. d.
形式 $Z = (1-epsilon) X + epsilon B$ の分布からのサンプル。ここで $X$ はゼロ平均で未知の共分散である Gaussian $mathcalN(0, Sigma)$ である。
汚染がない場合、事前の研究は、$O(d)$サンプルを使用するこの仮説テストタスクの単純なテスターを与えた。
サンプル複雑性の上限が $omega(d2)$ for $epsilon$ an arbitrarily small constant and $gamma であることを証明します。
論文 参考訳(メタデータ) (2020-12-31T18:24:41Z) - Optimal Sub-Gaussian Mean Estimation in $\mathbb{R}$ [5.457150493905064]
ガウス下収束を考慮した新しい推定器を提案する。
我々の推定器はその分散に関する事前の知識を必要としない。
我々の推定器の構成と分析は、他の問題に一般化可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2020-11-17T02:47:24Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。