論文の概要: Statistical Advantages of Perturbing Cosine Router in Mixture of Experts
- arxiv url: http://arxiv.org/abs/2405.14131v2
- Date: Wed, 13 Nov 2024 23:07:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:23:00.653863
- Title: Statistical Advantages of Perturbing Cosine Router in Mixture of Experts
- Title(参考訳): 専門職混在者における摂動型コサインルータの統計的有用性
- Authors: Huy Nguyen, Pedram Akbarian, Trang Pham, Trang Nguyen, Shujian Zhang, Nhat Ho,
- Abstract要約: The cosine router in Mixture of Experts (MoE)は、最近、従来のリニアルータに代わる魅力的な代替品として登場した。
実証的な成功にもかかわらず、MoEのコサインルータの包括的な分析には欠けていた。
摂動型MOEにおけるモデルパラメータと専門家の予測値は,共正ルーティング率に大きく改善されていることを証明した。
- 参考スコア(独自算出の注目度): 32.706436310033276
- License:
- Abstract: The cosine router in Mixture of Experts (MoE) has recently emerged as an attractive alternative to the conventional linear router. Indeed, the cosine router demonstrates favorable performance in image and language tasks and exhibits better ability to mitigate the representation collapse issue, which often leads to parameter redundancy and limited representation potentials. Despite its empirical success, a comprehensive analysis of the cosine router in MoE has been lacking. Considering the least square estimation of the cosine routing MoE, we demonstrate that due to the intrinsic interaction of the model parameters in the cosine router via some partial differential equations, regardless of the structures of the experts, the estimation rates of experts and model parameters can be as slow as $\mathcal{O}(1/\log^{\tau}(n))$ where $\tau > 0$ is some constant and $n$ is the sample size. Surprisingly, these pessimistic non-polynomial convergence rates can be circumvented by the widely used technique in practice to stabilize the cosine router -- simply adding noises to the $L^2$ norms in the cosine router, which we refer to as \textit{perturbed cosine router}. Under the strongly identifiable settings of the expert functions, we prove that the estimation rates for both the experts and model parameters under the perturbed cosine routing MoE are significantly improved to polynomial rates. Finally, we conduct extensive simulation studies in both synthetic and real data settings to empirically validate our theoretical results.
- Abstract(参考訳): The cosine router in Mixture of Experts (MoE)は、最近、従来のリニアルータに代わる魅力的な代替品として登場した。
実際、コサインルータは画像および言語タスクにおいて良好な性能を示し、表現崩壊問題を緩和する優れた能力を示し、しばしばパラメータ冗長性と限られた表現ポテンシャルをもたらす。
実証的な成功にもかかわらず、MoEのコサインルータの包括的な分析には欠けていた。
余弦経路MoEの最小二乗推定を考えると、ある種の偏微分方程式によるコサインルータのモデルパラメータの内在的相互作用により、専門家の構造に関係なく、専門家とモデルパラメータの推定速度は、$\mathcal{O}(1/\log^{\tau}(n))$と同じくらい遅く、$\tau > 0$ は一定の定数であり、$n$ はサンプルサイズであることを示す。
驚くべきことに、これらの悲観的な非多項式収束速度は、コサインルータを安定化するために広く使われている技法によって回避することができる。
専門家関数の強い同定可能な設定の下で、摂動コサインルーティングMOEの下での専門家とモデルパラメータの両方の推定率が多項式率に大きく改善されることを証明した。
最後に,我々の理論的結果を実証的に検証するために,合成データ設定と実データ設定の両方において広範なシミュレーション研究を行う。
関連論文リスト
- ParZC: Parametric Zero-Cost Proxies for Efficient NAS [17.35463786216675]
現在のゼロコストプロキシは、ニューラルネットワークの全ノードが同等のパフォーマンス推定に影響を及ぼさないという事実を考慮せずに、ノード単位のゼロコスト統計を集約する。
パラメトリックゼロコストプロキシ(ParZC)フレームワークを導入し,パラメータ化によるゼロコストプロキシの適応性を向上させる。
NAS-Bench-101, 201, NDSに関する総合的な実験は、既存のゼロショットNAS法と比較して提案したParZCの優位性を示した。
論文 参考訳(メタデータ) (2024-02-03T10:00:11Z) - Semi-parametric Expert Bayesian Network Learning with Gaussian Processes
and Horseshoe Priors [26.530289799110562]
本稿では,エキスパートベイズネットワーク(SEBN)におけるセミパラメトリック・レラ・オンシップの学習モデルを提案する。
我々は、最小限の非リン耳成分を導入する前に、ガウスのプロシースとホースシューを使用する。
実世界の未知のデータセットでは、ユーザ入力に対応するために多様なグラフを作成し、識別可能性の問題に対処し、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-01-29T18:57:45Z) - Multi-Irreducible Spectral Synchronization for Robust Rotation Averaging [1.2289361708127877]
雑音の測定値として、SO$における未知の向きの集合を$R_1, ..., R_Nで推定する方法を示す。
その結果, 正確な推定を実現するために, エフェクトが保証される計測ネットワークを考案する方法が示唆された。
論文 参考訳(メタデータ) (2023-11-28T06:25:26Z) - A Specialized Semismooth Newton Method for Kernel-Based Optimal
Transport [92.96250725599958]
カーネルベース最適輸送(OT)推定器は、サンプルからOT問題に対処するための代替的機能的推定手順を提供する。
SSN法は, 標準正規性条件下でのグローバル収束率$O (1/sqrtk)$, 局所二次収束率を達成できることを示す。
論文 参考訳(メタデータ) (2023-10-21T18:48:45Z) - Tractable Bounding of Counterfactual Queries by Knowledge Compilation [51.47174989680976]
本稿では, パール構造因果モデルにおいて, 因果関係などの部分的特定可能なクエリのバウンダリングの問題について議論する。
最近提案された反復EMスキームは初期化パラメータをサンプリングしてそれらの境界を内部近似する。
シンボルパラメータを実際の値に置き換えた回路構造を,単一のシンボル知識コンパイルによって得られることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:10:40Z) - Soft Merging of Experts with Adaptive Routing [38.962451264172856]
適応ルーティングによるエキスパートのソフトマージ(SMEAR)について紹介する
SMEARは、専門家のパラメータの重み付け平均を通して構築された単一の「マージされた」専門家を使用することで、離散的なルーティングを避ける。
我々は,メタデータに基づいた経路モデルや,勾配推定によるスパースルーティングを学習するSMEARモデルを用いたモデルの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-06T15:04:31Z) - Bias-Variance Tradeoffs in Single-Sample Binary Gradient Estimators [100.58924375509659]
ストレートスルー (ST) 推定器はその単純さと効率性から人気を得た。
計算の複雑さを低く保ちながら、STよりも改善するいくつかの手法が提案された。
我々は、トレードオフを理解し、元来主張された特性を検証するために、これらの手法のバイアスとばらつきの理論解析を行う。
論文 参考訳(メタデータ) (2021-10-07T15:16:07Z) - A Low-Complexity MIMO Channel Estimator with Implicit Structure of a
Convolutional Neural Network [0.0]
単一アンテナユーザを対象とした最小平均二乗誤差チャネル推定器を学習する低複雑性畳み込みニューラルネットワーク推定器を提案する。
パイロットシーケンスの任意の選択に対する推定器の高レベルな記述を導出する。
数値的な結果は最先端のアルゴリズムと比較して性能が向上することを示している。
論文 参考訳(メタデータ) (2021-04-26T15:52:29Z) - Toward fast and accurate human pose estimation via soft-gated skip
connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。
我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。
本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-02-25T18:51:51Z) - Support recovery and sup-norm convergence rates for sparse pivotal
estimation [79.13844065776928]
高次元スパース回帰では、ピボット推定器は最適な正規化パラメータがノイズレベルに依存しない推定器である。
非滑らかで滑らかな単一タスクとマルチタスク正方形ラッソ型推定器に対するミニマックス超ノルム収束率を示す。
論文 参考訳(メタデータ) (2020-01-15T16:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。