論文の概要: Grassmannian Mixture-of-Experts: Concentration-Controlled Routing on Subspace Manifolds
- arxiv url: http://arxiv.org/abs/2602.17798v1
- Date: Thu, 19 Feb 2026 20:03:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.126975
- Title: Grassmannian Mixture-of-Experts: Concentration-Controlled Routing on Subspace Manifolds
- Title(参考訳): Grassmannian Mixture-of-Experts: 部分空間多様体上の濃度制御されたルーティング
- Authors: Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma,
- Abstract要約: Mixture-of-Expertsモデルは、エキスパートにトークンを割り当てるために学習ルータに依存しているが、標準的なソフトマックスゲーティングは、スパーシリティと利用のトレードオフを制御するための原則的なメカニズムを提供していない。
部分空間のグラスマン多様体上で動くルーティングフレームワークGrassmannian MoEを提案する。
- 参考スコア(独自算出の注目度): 6.908972852063454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts models rely on learned routers to assign tokens to experts, yet standard softmax gating provides no principled mechanism to control the tradeoff between sparsity and utilization. We propose Grassmannian MoE (GrMoE), a routing framework that operates on the Grassmannian manifold of subspaces, where gating weights arise from the concentration parameters of Matrix Bingham distributions. This construction yields a single, interpretable knob -- the concentration matrix $Λ$ -- that continuously controls routing entropy, replacing discrete top-$k$ selection with a smooth, geometrically principled sparsity mechanism. We further develop an amortized variational inference procedure for posterior routing distributions, enabling uncertainty-aware expert assignment that naturally resists expert collapse. We formally prove tight bounds relating the Bingham concentration spectrum to routing entropy, expected top-$k$ mass, and an exponential bound on expert collapse, establishing the first formal theory of concentration-controlled sparsity. On synthetic routing tasks, a 350M-parameter MoE language model with 8 experts, a 1.3B-parameter model with 16 experts, and a 2.7B-parameter model with 32 experts, GrMoE achieves 0\% routing collapse across all seeds, comparable or better perplexity with 15--30\% improved load balance, and a smooth monotonic relationship between concentration and effective sparsity that enables post-hoc sparsity tuning without retraining. Token-level analysis reveals that experts learn heterogeneous concentration values that correlate with linguistic specialization, providing interpretable routing behavior.
- Abstract(参考訳): Mixture-of-Expertsモデルは、エキスパートにトークンを割り当てるために学習ルータに依存しているが、標準的なソフトマックスゲーティングは、スパーシリティと利用のトレードオフを制御するための原則的なメカニズムを提供していない。
行列ビンガム分布の濃度パラメータからゲーティング重みが生じる部分空間のグラスマン多様体上でのルーティングフレームワークであるグラスマンモエ(GrMoE)を提案する。
この構成は、1つの解釈可能なknob -- 濃度行列$$ -- が、ルーティングエントロピーを連続的に制御し、離散のトップ-$k$選択を滑らかで幾何学的に原理化されたスパーシティ機構に置き換える。
さらに、後続のルーティング分布に対する償却変分推論手法を開発し、専門家の崩壊に自然に抵抗する不確実性に注意する専門家の割り当てを可能にする。
我々は、ビンガム濃度スペクトルとルーティングエントロピー、期待値のトップ-k$質量、および専門家崩壊の指数的境界に関する厳密な境界を正式に証明し、濃度制御された空間性の最初の公式な理論を確立した。
合成ルーティングタスクでは、350MパラメータMOE言語モデルに8人の専門家がおり、1.3Bパラメータモデルに16人のエキスパートがおり、2.7Bパラメータモデルに32人の専門家がおり、GrMoEは全種子に0-%のルーティング崩壊を達成している。
トークンレベルの分析により、専門家は言語的特殊化と相関する異種濃度の値を学び、解釈可能なルーティング行動を提供することが明らかになった。
関連論文リスト
- Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Improving Minimax Estimation Rates for Contaminated Mixture of Multinomial Logistic Experts via Expert Heterogeneity [49.809923981964715]
凍結したエキスパートとして機能する事前訓練されたモデルを、新しいタスクを学ぶためにトレーニング可能なエキスパートとして機能するアダプタモデルに統合するトランスファー学習手法によって、汚染された専門家の混合(MoE)が動機付けられる。
本研究は, 地絡パラメータがサンプルサイズによって異なる困難な条件下で, パラメータを推定するための一様収束率を特徴付ける。
また、対応するミニマックス下限を定め、これらのレートがミニマックス最適であることを保証する。
論文 参考訳(メタデータ) (2026-01-31T23:45:50Z) - Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts [74.40169987564724]
エキスパート並列性(EP)は、複数のデバイスに専門家を分散させることで、MoEモデルをスケールするように設計されている。
極端な不均衡の下で、EPは少数の専門家に不均等な数のトークンを渡し、計算とメモリバウンドの障害を引き起こす。
本稿では,過剰なトークンと関連する専門家パラメータを過負荷デバイスから未利用デバイスへ動的に再帰する新しいEPアルゴリズムであるLast-Loaded Expert Parallelism (LLEP)を提案する。
論文 参考訳(メタデータ) (2026-01-23T18:19:15Z) - Variational Inference, Entropy, and Orthogonality: A Unified Theory of Mixture-of-Experts [11.888882732753922]
Mixture-of-Expertsモデルは、入力毎に専門家のサブセットのみを起動するため、大きな言語モデルを効率的にスケールすることができる。
ベイズの観点から、これらのプラクティスを最適後続近似と事前正規化として導出する最初の統一理論フレームワークを構築した。
我々の研究は、MoEのより深い理解と新しい設計のために、本質的な理論的支援と技術的保証を提供する。
論文 参考訳(メタデータ) (2026-01-07T04:45:07Z) - Dendrograms of Mixing Measures for Softmax-Gated Gaussian Mixture of Experts: Consistency without Model Sweeps [41.371172458797524]
ゲーティングパラメータの共通翻訳、固有のゲート-エキスパート相互作用、およびタイトな数値-デノミネータ結合までの不特定性に対処する。
モデル選択には, 最適なパラメータ率を得る専門家の数を一貫したスイープフリーセレクタとして, デンドログラム誘導SGMoEを適応させる。
干ばつを識別できるトウモロコシの形質のデータセット上で、私たちのデンドログラム誘導SGMoEは2人の専門家を選別し、明確な混合階層を公開し、確率を早期に安定化し、解釈可能な遺伝子型フェノタイプマップを生成する。
論文 参考訳(メタデータ) (2025-10-14T17:23:44Z) - Bayesian Mixture-of-Experts: Towards Making LLMs Know What They Don't Know [0.0]
Mixture-of-Experts (MoE) は大規模で効率的な大規模言語モデルの構築を可能にした。
標準的な決定論的ルーティングメカニズムは、重大な制限を提示する。
この論文では、構造化されたtextbfBayesian MoEルーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-28T12:07:35Z) - Latent Prototype Routing: Achieving Near-Perfect Load Balancing in Mixture-of-Experts [0.0]
Latent Prototype Routing (LPR)は、下流のパフォーマンスを損なうことなく、専門家のバランスのとれた利用を促進する新しいルーティングフレームワークである。
LPRは、専門家負荷のジーニ係数を平均0.70から0.035に減らし、専門家負荷比を1e-6から0.070に改善し、ほぼ完全な負荷分散を実現する。
論文 参考訳(メタデータ) (2025-06-26T14:41:18Z) - Latent Diffusion Model Based Denoising Receiver for 6G Semantic Communication: From Stochastic Differential Theory to Application [11.385703484113552]
生成人工知能(GAI)を利用した新しい意味コミュニケーションフレームワークを提案する。
意味的特徴抽出のための変分オートエンコーダを組み合わせた潜在拡散モデル(LDM)に基づくセマンティックコミュニケーションフレームワークを提案する。
提案システムはゼロショットの一般化をサポートし,低SNRおよびアウト・オブ・ディストリビューション条件下での優れた性能を実現する訓練自由フレームワークである。
論文 参考訳(メタデータ) (2025-06-06T03:20:32Z) - Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient
for Convolutional Neural Networks [74.68583356645276]
ディープラーニングでは、Mixix-of-experts(MoE)が、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化する。
我々は,pMoEが適切な一般化を実現するために,必要なトレーニングサンプル数を確実に削減できることを初めて示す。
論文 参考訳(メタデータ) (2023-06-07T00:16:10Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Probabilistic electric load forecasting through Bayesian Mixture Density
Networks [70.50488907591463]
確率的負荷予測(PLF)は、スマートエネルギーグリッドの効率的な管理に必要な拡張ツールチェーンの重要なコンポーネントです。
ベイジアン混合密度ネットワークを枠とした新しいPLFアプローチを提案する。
後方分布の信頼性と計算にスケーラブルな推定を行うため,平均場変動推定と深層アンサンブルを統合した。
論文 参考訳(メタデータ) (2020-12-23T16:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。