論文の概要: Non-asymptotic oracle inequalities for the Lasso in high-dimensional mixture of experts
- arxiv url: http://arxiv.org/abs/2009.10622v7
- Date: Tue, 2 Jul 2024 17:04:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-07 17:13:04.365508
- Title: Non-asymptotic oracle inequalities for the Lasso in high-dimensional mixture of experts
- Title(参考訳): 専門家の高次元混合におけるラッソの非漸近オラクル不等式
- Authors: TrungTin Nguyen, Hien D Nguyen, Faicel Chamroukhi, Geoffrey J McLachlan,
- Abstract要約: ソフトマックスゲーティング関数を持つガウスモデルとガウス専門家のクラスを考察する。
我々の知る限りでは、SGMoEモデルの$l_1$-regularization特性を非漸近的観点から初めて研究する。
我々は、SGMoEモデルに対するラッソ推定器のKulback-Leibler損失の非漸近的理論的制御を保証するために、ラッソペナルティの正規化パラメータの低い境界を与える。
- 参考スコア(独自算出の注目度): 2.794896499906838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the estimation properties of the mixture of experts (MoE) model in a high-dimensional setting, where the number of predictors is much larger than the sample size, and for which the literature is particularly lacking in theoretical results. We consider the class of softmax-gated Gaussian MoE (SGMoE) models, defined as MoE models with softmax gating functions and Gaussian experts, and focus on the theoretical properties of their $l_1$-regularized estimation via the Lasso. To the best of our knowledge, we are the first to investigate the $l_1$-regularization properties of SGMoE models from a non-asymptotic perspective, under the mildest assumptions, namely the boundedness of the parameter space. We provide a lower bound on the regularization parameter of the Lasso penalty that ensures non-asymptotic theoretical control of the Kullback--Leibler loss of the Lasso estimator for SGMoE models. Finally, we carry out a simulation study to empirically validate our theoretical findings.
- Abstract(参考訳): 本研究では, 高次元環境下でのエキスパート(MoE)モデルの混合特性について検討し, 予測器の数は試料サイズよりもはるかに大きく, 理論的には特に不足している。
ソフトマックスゲーティング関数とガウスの専門家によるMoEモデルとして定義されるソフトマックスゲートガウスモデル(SGMoE)のクラスを考察し,その理論的性質に着目した。
我々の知る限りでは、SGMoE モデルの $l_1$-regularization 特性を非漸近的観点から、最も軽度な仮定、すなわちパラメータ空間の有界性の下で初めて調べる。
我々は、SGMoEモデルに対するラッソ推定器のKulback-Leibler損失の非漸近的理論的制御を保証するために、ラッソペナルティの正規化パラメータの低い境界を与える。
最後に,我々の理論的知見を実証的に検証するためのシミュレーション研究を行った。
関連論文リスト
- Method-of-Moments Inference for GLMs and Doubly Robust Functionals under Proportional Asymptotics [30.324051162373973]
高次元一般化線形モデル(GLM)における回帰係数と信号対雑音比の推定について考察する。
我々は、推論対象の一貫性と漸近的正規性(CAN)推定を導出する。
理論的結果を数値実験と既存文献との比較で補完する。
論文 参考訳(メタデータ) (2024-08-12T12:43:30Z) - Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts [78.3687645289918]
我々は,シグモイドゲーティング関数が,専門家推定の統計的タスクにおいて,ソフトマックスゲーティングよりも高いサンプル効率を享受できることを示した。
ReLU や GELU のようなよく使われる活性化型フィードフォワードネットワークとして定式化された専門家は,シグモイドゲーティングの下でより速い収束率を享受できる。
論文 参考訳(メタデータ) (2024-05-22T21:12:34Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts? [27.924615931679757]
本研究は,MoEの下での最大推定値に対する専門家(MoE)の密度-スパース混合の影響について検討する。
本稿では,線形層の出力を活性化関数にルーティングし,ソフトマックス関数に伝達する新しいアクティベーション・トゥ・スパースゲートを提案する。
論文 参考訳(メタデータ) (2024-01-25T01:09:09Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts [28.13187489224953]
本稿では,入力をゲーティング関数に渡す前に変換する改良型ソフトマックスゲーティング関数を提案する。
その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-22T05:32:19Z) - Algebraic and Statistical Properties of the Ordinary Least Squares Interpolator [3.4320157633663064]
我々は最小$ell$-norm OLS補間器について結果を提供する。
ガウス・マルコフの定理の拡張のような統計的結果を示す。
我々はOLS補間器の特性をさらに探求するシミュレーションを行う。
論文 参考訳(メタデータ) (2023-09-27T16:41:10Z) - Inverting brain grey matter models with likelihood-free inference: a
tool for trustable cytoarchitecture measurements [62.997667081978825]
脳の灰白質細胞構造の特徴は、体密度と体積に定量的に敏感であり、dMRIでは未解決の課題である。
我々は新しいフォワードモデル、特に新しい方程式系を提案し、比較的スパースなb殻を必要とする。
次に,提案手法を逆転させるため,確率自由推論 (LFI) として知られるベイズ解析から最新のツールを適用した。
論文 参考訳(メタデータ) (2021-11-15T09:08:27Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - A non-asymptotic penalization criterion for model selection in mixture
of experts models [1.491109220586182]
ガウス型局所化moe(glome)回帰モデルを用いて異種データをモデル化する。
このモデルは、統計的推定とモデル選択の問題に関して難しい疑問を提起する。
本稿では,GLoMEモデルの成分数を推定する問題について,最大推定法を用いて検討する。
論文 参考訳(メタデータ) (2021-04-06T16:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。