論文の概要: Mixture-of-Experts under Finite-Rate Gating: Communication--Generalization Trade-offs
- arxiv url: http://arxiv.org/abs/2602.15091v1
- Date: Mon, 16 Feb 2026 17:26:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.869771
- Title: Mixture-of-Experts under Finite-Rate Gating: Communication--Generalization Trade-offs
- Title(参考訳): 有限レートゲーティングにおける実験の混合:コミュニケーション--一般化トレードオフ
- Authors: Ali Khalesi, Mohammad Reza Deylam Salehi,
- Abstract要約: Mixture-of-Experts (MoE)アーキテクチャは、予測タスクをゲーティング機構によって選択された専門的なサブネットワークに分解する。
我々は、相互情報境界を専門とし、有限レートゲーティングの速度歪み特性$D(R_g)$を開発する。
この分析により,通信制約付きMoEシステムのキャパシティ・アウェア・リミットが得られ,合成マルチエキスパートモデルの数値シミュレーションにより,ゲーティング速度,表現率,一般化の予測トレードオフが実証的に確認される。
- 参考スコア(独自算出の注目度): 3.8673630752805437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures decompose prediction tasks into specialized expert sub-networks selected by a gating mechanism. This letter adopts a communication-theoretic view of MoE gating, modeling the gate as a stochastic channel operating under a finite information rate. Within an information-theoretic learning framework, we specialize a mutual-information generalization bound and develop a rate-distortion characterization $D(R_g)$ of finite-rate gating, where $R_g:=I(X; T)$, yielding (under a standard empirical rate-distortion optimality condition) $\mathbb{E}[R(W)] \le D(R_g)+δ_m+\sqrt{(2/m)\, I(S; W)}$. The analysis yields capacity-aware limits for communication-constrained MoE systems, and numerical simulations on synthetic multi-expert models empirically confirm the predicted trade-offs between gating rate, expressivity, and generalization.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、予測タスクをゲーティング機構によって選択された専門的なサブネットワークに分解する。
このレターでは、MoEゲーティングの通信理論的なビューを採用し、有限情報レートで動作する確率チャネルとしてゲートをモデル化する。
情報理論学習フレームワーク内では、相互情報一般化を専門とし、有限レートゲーティングの比例$D(R_g)$を開発する。ここで、$R_g:=I(X; T)$, yielding (標準的な経験的速度-歪み最適条件の下で) $\mathbb{E}[R(W)] \le D(R_g)+δ_m+\sqrt{(2/m)\, I(S; W)}$。
この分析により,通信制約付きMoEシステムのキャパシティ・アウェア・リミットが得られ,合成マルチエキスパートモデルの数値シミュレーションにより,ゲーティング速度,表現率,一般化の予測トレードオフが実証的に確認される。
関連論文リスト
- Understanding Model Merging: A Unified Generalization Framework for Heterogeneous Experts [36.26786113564521]
モデルマージは、複数の微調整されたモデルの機能を単一のモデルに効率的に集約する。
経験的成功にもかかわらず、不均一な微調整ハイパーパラメータの下での有効性の統一理論はいまだに欠落している。
我々は$L$-Stability理論を用いて、合併されたモデル $boldsymbolx_avg$ の一般化を分析する。
論文 参考訳(メタデータ) (2026-01-29T13:22:06Z) - Mixture-of-Experts Models in Vision: Routing, Optimization, and Generalization [0.0]
画像分類設定におけるMoEの挙動について検討し、予測性能、専門家の活用、一般化に着目した。
我々は、CIFAR10データセット上の密度、SoftMoE、SparseMoE分類器を、同等のモデルキャパシティで比較する。
どちらのMoE変種も、正規化によるバランスの取れた専門家の利用を維持しながら、密度の高いベースラインよりもわずかに高い検証精度を達成する。
DenseとSparseMoEは、全てのモデルが同等の一般化性能を達成しているにもかかわらず、同様の曲率状態にあるのに対して、SoftMoEはこれらの指標によってよりシャープさを示す。
論文 参考訳(メタデータ) (2026-01-21T14:22:25Z) - Latent Diffusion Model Based Denoising Receiver for 6G Semantic Communication: From Stochastic Differential Theory to Application [11.385703484113552]
生成人工知能(GAI)を利用した新しい意味コミュニケーションフレームワークを提案する。
意味的特徴抽出のための変分オートエンコーダを組み合わせた潜在拡散モデル(LDM)に基づくセマンティックコミュニケーションフレームワークを提案する。
提案システムはゼロショットの一般化をサポートし,低SNRおよびアウト・オブ・ディストリビューション条件下での優れた性能を実現する訓練自由フレームワークである。
論文 参考訳(メタデータ) (2025-06-06T03:20:32Z) - Generalization in VAE and Diffusion Models: A Unified Information-Theoretic Analysis [20.429383584319815]
本稿では,エンコーダとジェネレータの両方の一般化を保証する統一理論フレームワークを提案する。
合成データと実データの両方に対する実験結果から,提案理論の有効性が示唆された。
論文 参考訳(メタデータ) (2025-06-01T06:11:38Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - Learning Mixtures of Experts with EM: A Mirror Descent Perspective [28.48469221248906]
古典的なMixtures of Experts(MoE)は、入力空間を含む機械学習モデルであり、各パーティションでトレーニングされた個別の"エキスパート"モデルである。
我々は,MoEモデルのトレーニングにおける期待最大化(EM)アルゴリズムの理論的保証について検討する。
論文 参考訳(メタデータ) (2024-11-09T03:44:09Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts [28.13187489224953]
本稿では,入力をゲーティング関数に渡す前に変換する改良型ソフトマックスゲーティング関数を提案する。
その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-22T05:32:19Z) - Permutation Compressors for Provably Faster Distributed Nonconvex
Optimization [68.8204255655161]
本稿では,Gorbunov et al (2021) の MARINA 法が,理論的な通信複雑性の観点から最先端の手法とみなすことができることを示す。
MARINAの理論は、古典的な独立圧縮機設定を超えて、潜在的にエミュレートされた圧縮機の理論を支持するものである。
論文 参考訳(メタデータ) (2021-10-07T09:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。