論文の概要: Model Selection for Gaussian-gated Gaussian Mixture of Experts Using Dendrograms of Mixing Measures
- arxiv url: http://arxiv.org/abs/2505.13052v1
- Date: Mon, 19 May 2025 12:41:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.592226
- Title: Model Selection for Gaussian-gated Gaussian Mixture of Experts Using Dendrograms of Mixing Measures
- Title(参考訳): 混合度デンドログラムを用いたガウスゲート型ガウス混合専門家のモデル選択
- Authors: Tuan Thai, TrungTin Nguyen, Dat Do, Nhat Ho, Christopher Drovandi,
- Abstract要約: Mixture of Experts (MoE)モデルは、統計学と機械学習において広く利用されているアンサンブル学習アプローチのクラスである。
混合成分の真の数を一貫した推定が可能なガウスゲート型MoEモデルに新しい拡張を導入する。
合成データを用いた実験結果から,提案手法の有効性が示唆された。
- 参考スコア(独自算出の注目度): 24.865197779389323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture of Experts (MoE) models constitute a widely utilized class of ensemble learning approaches in statistics and machine learning, known for their flexibility and computational efficiency. They have become integral components in numerous state-of-the-art deep neural network architectures, particularly for analyzing heterogeneous data across diverse domains. Despite their practical success, the theoretical understanding of model selection, especially concerning the optimal number of mixture components or experts, remains limited and poses significant challenges. These challenges primarily stem from the inclusion of covariates in both the Gaussian gating functions and expert networks, which introduces intrinsic interactions governed by partial differential equations with respect to their parameters. In this paper, we revisit the concept of dendrograms of mixing measures and introduce a novel extension to Gaussian-gated Gaussian MoE models that enables consistent estimation of the true number of mixture components and achieves the pointwise optimal convergence rate for parameter estimation in overfitted scenarios. Notably, this approach circumvents the need to train and compare a range of models with varying numbers of components, thereby alleviating the computational burden, particularly in high-dimensional or deep neural network settings. Experimental results on synthetic data demonstrate the effectiveness of the proposed method in accurately recovering the number of experts. It outperforms common criteria such as the Akaike information criterion, the Bayesian information criterion, and the integrated completed likelihood, while achieving optimal convergence rates for parameter estimation and accurately approximating the regression function.
- Abstract(参考訳): Mixture of Experts (MoE)モデルは、統計学と機械学習において広く利用されているアンサンブル学習アプローチのクラスであり、その柔軟性と計算効率で知られている。
それらは多くの最先端のディープニューラルネットワークアーキテクチャにおいて、特にさまざまな領域にわたる異種データを解析するための重要なコンポーネントとなっている。
その実践的な成功にもかかわらず、モデル選択の理論的理解、特に混合成分や専門家の最適数については、依然として限定的であり、重大な課題を提起している。
これらの課題は、ガウスのゲーティング関数とエキスパートネットワークの両方に共変量を含めることに起因しており、そのパラメータに関して偏微分方程式によって支配される内在的相互作用を導入する。
本稿では,混合測度に関するデンドログラムの概念を再検討し,混合成分の真の数を一貫した推定を可能にし,過度に適合したシナリオにおけるパラメータ推定のための最適収束率を実現するガウス閉ガウスMOEモデルに新たな拡張を導入する。
このアプローチは、特に高次元または深層ニューラルネットワーク設定における計算負担を軽減するために、さまざまなコンポーネントのモデルをトレーニングし比較する必要性を回避している。
合成データを用いた実験結果から,提案手法の有効性が示唆された。
パラメータ推定のための最適収束率を達成し、回帰関数を正確に近似しながら、赤池情報基準、ベイズ情報基準、統合完了可能性などの共通基準を上回ります。
関連論文リスト
- Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - Partially factorized variational inference for high-dimensional mixed models [0.0]
変分推論は、特にベイズ的文脈において、そのような計算を行う一般的な方法である。
標準平均場変動推論は,高次元の後方不確かさを劇的に過小評価することを示した。
次に、平均場仮定を適切に緩和すると、不確実な定量化が高次元で悪化しない手法が導かれることを示す。
論文 参考訳(メタデータ) (2023-12-20T16:12:37Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Deep Gaussian Mixture Ensembles [9.673093148930874]
この研究は、ディープガウス混合アンサンブル(DGME)と呼ばれる新しい確率的深層学習技術を導入している。
DGMEは、重み付き分布やマルチモーダル分布などの複雑な確率分布を近似することができる。
実験の結果,DGMEは複雑な予測密度を扱う深層学習モデルにおいて,最先端の不確実性よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-12T16:53:38Z) - Towards Convergence Rates for Parameter Estimation in Gaussian-gated
Mixture of Experts [40.24720443257405]
ガウスゲートMOEモデルにおける最大推定値(MLE)の収束解析を行う。
以上の結果から,MLEはガウスゲーティング関数の位置パラメータの2つの相補的な設定の下で異なる挙動を示すことが明らかとなった。
特に、これらの挙動は2つの異なる方程式系の可解性によって特徴づけられる。
論文 参考訳(メタデータ) (2023-05-12T16:02:19Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Gaussian Mixture Reduction with Composite Transportation Divergence [15.687740538194413]
複合輸送分散(CTD)に基づく新しい最適化型GMR法を提案する。
我々は,還元混合物を計算し,その理論的収束を確立するための最大化最小化アルゴリズムを開発した。
統合されたフレームワークにより、CTDの最も適切なコスト関数を選択して、優れたパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2020-02-19T19:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。