Fugu-MT 論文翻訳(概要): A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts

論文の概要: A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts

arxiv url: http://arxiv.org/abs/2310.14188v1
Date: Sun, 22 Oct 2023 05:32:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 01:24:39.818313
Title: A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts
Title（参考訳）: ソフトマックスゲーティングにおけるエキスパートの多項ロジスティックな混合の理論
Authors: Huy Nguyen, Pedram Akbarian, TrungTin Nguyen, Nhat Ho
Abstract要約: 本稿では,入力値をゲーティング関数に渡す前に変換する改良型ソフトマックスゲーティング関数を提案する。その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
参考スコア（独自算出の注目度）: 30.73205233966986
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mixture-of-experts (MoE) model incorporates the power of multiple submodels via gating functions to achieve greater performance in numerous regression and classification applications. From a theoretical perspective, while there have been previous attempts to comprehend the behavior of that model under the regression settings through the convergence analysis of maximum likelihood estimation in the Gaussian MoE model, such analysis under the setting of a classification problem has remained missing in the literature. We close this gap by establishing the convergence rates of density estimation and parameter estimation in the softmax gating multinomial logistic MoE model. Notably, when part of the expert parameters vanish, these rates are shown to be slower than polynomial rates owing to an inherent interaction between the softmax gating and expert functions via partial differential equations. To address this issue, we propose using a novel class of modified softmax gating functions which transform the input value before delivering them to the gating functions. As a result, the previous interaction disappears and the parameter estimation rates are significantly improved.
Abstract（参考訳）: mix-of-experts(moe)モデルは、ゲーティング関数を介して複数のサブモデルのパワーを取り入れ、多くの回帰および分類アプリケーションでより高いパフォーマンスを達成する。理論的な観点からは、ガウスmoeモデルにおける最大確率推定の収束解析を通じて回帰条件下でのモデルの挙動を理解する試みは以前から行われてきたが、このような分類問題の設定下での分析は文献に欠落している。このギャップを,softmax gating multinomial logistic moeモデルにおける密度推定とパラメータ推定の収束率を確立することで解消する。特に、エキスパートパラメータの一部が消失すると、これらのレートは、ソフトマックスゲーティングと偏微分方程式によるエキスパート関数との固有の相互作用により多項式レートよりも遅いことが示されている。この問題に対処するため,本稿では,入力値をガティング関数に渡す前に変換する,修正ソフトマックスガティング関数の新たなクラスを提案する。その結果,従来の相互作用は消失し,パラメータ推定率が大幅に向上した。

関連論文リスト

On Minimax Estimation of Parameters in Softmax-Contaminated Mixture of Experts [66.39976432286905]
ゲーティングおよびプロンプトパラメータの最大極大推定器の収束率について検討する。事前学習したモデルと重なり合う知識を取得すると,これらのパラメータの推定可能性が損なわれることがわかった。
論文参考訳（メタデータ） (2025-05-24T01:30:46Z)
Adaptive sparse variational approximations for Gaussian process regression [6.169364905804677]
階層型ベイズ法に対する変分近似を構築し, 変分後部の収縮率の上限を導出する。我々の理論的結果は、合成データセットと実世界のデータセットの両方で数値解析される。
論文参考訳（メタデータ） (2025-04-04T09:57:00Z)
Multivariate root-n-consistent smoothing parameter free matching estimators and estimators of inverse density weighted expectations [51.000851088730684]
我々は、パラメトリックな$sqrt n $-rateで収束する、最も近い隣人の新しい修正とマッチング推定器を開発する。我々は,非パラメトリック関数推定器は含まないこと,特に標本サイズ依存パラメータの平滑化には依存していないことを強調する。
論文参考訳（メタデータ） (2024-07-11T13:28:34Z)
Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts [78.3687645289918]
我々は,シグモイドゲーティング関数が,専門家推定の統計的タスクにおいて,ソフトマックスゲーティングよりも高いサンプル効率を享受できることを示した。 ReLU や GELU のようなよく使われる活性化型フィードフォワードネットワークとして定式化された専門家は,シグモイドゲーティングの下でより速い収束率を享受できる。
論文参考訳（メタデータ） (2024-05-22T21:12:34Z)
On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。本研究は,専門家の選択に重要な意味を持つ。
論文参考訳（メタデータ） (2024-02-05T12:31:18Z)
Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts? [27.924615931679757]
本研究は,MoEの下での最大推定値に対する専門家(MoE)の密度-スパース混合の影響について検討する。本稿では,線形層の出力を活性化関数にルーティングし,ソフトマックス関数に伝達する新しいアクティベーション・トゥ・スパースゲートを提案する。
論文参考訳（メタデータ） (2024-01-25T01:09:09Z)
Statistical Perspective of Top-K Sparse Softmax Gating Mixture of Experts [28.907764868329988]
本研究では,トップKスパース・ソフトマックス・ゲーティング関数が密度およびパラメータ推定に与える影響について検討した。その結果,入力領域の異なる振る舞いを捉えるために,パラメータ間の新規な損失関数を定義した。以上の結果から,トップKスパースソフトマックスゲーティング関数から選択した専門家の数は,一定数のボロノイ細胞の総濃度を超えることが示唆された。
論文参考訳（メタデータ） (2023-09-25T03:28:01Z)
Structured Radial Basis Function Network: Modelling Diversity for Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文参考訳（メタデータ） (2023-09-02T01:27:53Z)
Multi-Response Heteroscedastic Gaussian Process Models and Their Inference [1.52292571922932]
本稿ではヘテロセダスティック共分散関数のモデリングのための新しいフレームワークを提案する。後部モデルに近似し, 後部予測モデルを容易にするために, 変分推論を用いる。提案するフレームワークは,幅広いアプリケーションに対して,堅牢で汎用的なツールを提供する。
論文参考訳（メタデータ） (2023-08-29T15:06:47Z)
Towards Convergence Rates for Parameter Estimation in Gaussian-gated Mixture of Experts [40.24720443257405]
ガウスゲートMOEモデルにおける最大推定値(MLE)の収束解析を行う。以上の結果から,MLEはガウスゲーティング関数の位置パラメータの2つの相補的な設定の下で異なる挙動を示すことが明らかとなった。特に、これらの挙動は2つの異なる方程式系の可解性によって特徴づけられる。
論文参考訳（メタデータ） (2023-05-12T16:02:19Z)
Adaptive LASSO estimation for functional hidden dynamic geostatistical model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文参考訳（メタデータ） (2022-08-10T19:17:45Z)
Estimation of Switched Markov Polynomial NARX models [75.91002178647165]
非線形自己回帰(NARX)成分を特徴とするハイブリッド力学系のモデル群を同定する。提案手法は, 特定の回帰器を持つ3つの非線形サブモデルからなるSMNARX問題に対して実証される。
論文参考訳（メタデータ） (2020-09-29T15:00:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。