論文の概要: On Bayesian Softmax-Gated Mixture-of-Experts Models
- arxiv url: http://arxiv.org/abs/2604.20551v1
- Date: Wed, 22 Apr 2026 13:37:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.143564
- Title: On Bayesian Softmax-Gated Mixture-of-Experts Models
- Title(参考訳): Bayesian Softmax-Gated Mixture-of-Experts モデルについて
- Authors: Nicola Bariletto, Huy Nguyen, Nhat Ho, Alessandro Rinaldo,
- Abstract要約: 本研究では,ユビキタスソフトマックスに基づくゲーティング機構に着目し,実験モデルの混合について検討する。
本稿では,パラメータ推定とボロノイ型損失に基づく収束保証の導出について分析する。
これらの結果は、ソフトマックスゲーティングによる実験モデルの混合に関する最初の体系的理論的分析の1つである。
- 参考スコア(独自算出の注目度): 95.06359956519759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-experts models provide a flexible framework for learning complex probabilistic input-output relationships by combining multiple expert models through an input-dependent gating mechanism. These models have become increasingly prominent in modern machine learning, yet their theoretical properties in the Bayesian framework remain largely unexplored. In this paper, we study Bayesian mixture-of-experts models, focusing on the ubiquitous softmax-based gating mechanism. Specifically, we investigate the asymptotic behavior of the posterior distribution for three fundamental statistical tasks: density estimation, parameter estimation, and model selection. First, we establish posterior contraction rates for density estimation, both in the regimes with a fixed, known number of experts and with a random learnable number of experts. We then analyze parameter estimation and derive convergence guarantees based on tailored Voronoi-type losses, which account for the complex identifiability structure of mixture-of-experts models. Finally, we propose and analyze two complementary strategies for selecting the number of experts. Taken together, these results provide one of the first systematic theoretical analyses of Bayesian mixture-of-experts models with softmax gating, and yield several theory-grounded insights for practical model design.
- Abstract(参考訳): 混合専門家モデル(Mixture-of-experts model)は、複数の専門家モデルを組み合わせることで、複雑な確率的インプット・アウトプット関係を学習するための柔軟なフレームワークを提供する。
これらのモデルは現代の機械学習においてますます顕著になっているが、ベイズ理論の理論的性質はほとんど解明されていない。
本稿では,ユビキタスソフトマックスに基づくゲーティング機構に着目し,ベイズ混合実験モデルについて検討する。
具体的には,3つの基本統計課題(密度推定,パラメータ推定,モデル選択)に対する後部分布の漸近挙動について検討する。
まず,一定数の専門家と無作為に学習可能な専門家の両方を持つ体制において,密度推定のための後部収縮率を確立する。
次に, パラメータ推定とボロノイ型損失に基づく収束保証の導出を行い, 混合実験モデルの複雑な識別可能性構造を考慮に入れた。
最後に,専門家数を選択するための2つの補完戦略を提案し,分析する。
これらの結果は、ソフトマックスゲーティングを用いたベイズ混合実験モデルの最初の体系的理論的解析の1つであり、実用モデル設計のためのいくつかの理論的な洞察を与える。
関連論文リスト
- Improving Minimax Estimation Rates for Contaminated Mixture of Multinomial Logistic Experts via Expert Heterogeneity [49.809923981964715]
凍結したエキスパートとして機能する事前訓練されたモデルを、新しいタスクを学ぶためにトレーニング可能なエキスパートとして機能するアダプタモデルに統合するトランスファー学習手法によって、汚染された専門家の混合(MoE)が動機付けられる。
本研究は, 地絡パラメータがサンプルサイズによって異なる困難な条件下で, パラメータを推定するための一様収束率を特徴付ける。
また、対応するミニマックス下限を定め、これらのレートがミニマックス最適であることを保証する。
論文 参考訳(メタデータ) (2026-01-31T23:45:50Z) - Model Selection for Gaussian-gated Gaussian Mixture of Experts Using Dendrograms of Mixing Measures [24.865197779389323]
Mixture of Experts (MoE)モデルは、統計学と機械学習において広く利用されているアンサンブル学習アプローチのクラスである。
混合成分の真の数を一貫した推定が可能なガウスゲート型MoEモデルに新しい拡張を導入する。
合成データを用いた実験結果から,提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T12:41:19Z) - On DeepSeekMoE: Statistical Benefits of Shared Experts and Normalized Sigmoid Gating [75.29576838162714]
DeepSeekMoEは、共有専門家戦略の展開と正規化されたシグモイドゲーティングメカニズムの2つのユニークな特徴から際立っている。
本研究では, 共有専門家戦略と正規化シグモイドゲーティングの両方において, サンプル効率の利得を明らかにするために, 専門家推定タスクの収束解析を行う。
論文 参考訳(メタデータ) (2025-05-16T04:58:18Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。