論文の概要: How Many Experts Are Enough? Towards Optimal Semantic Specialization for Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2512.19765v1
- Date: Sun, 21 Dec 2025 05:37:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.627037
- Title: How Many Experts Are Enough? Towards Optimal Semantic Specialization for Mixture-of-Experts
- Title(参考訳): 専門家は何人いるか?-Mixture-of-Expertsの最適セマンティックスペシャライゼーションに向けて
- Authors: Sumin Park, Noseong Park,
- Abstract要約: 適応型エキスパート拡張と動的ルーティングのためのセマンティックアウェアなMoEフレームワークを提案する。
MASSは、コストパフォーマンストレードオフと特にセマティック特殊化の改善の間の最適なバランスの点に収束する。
- 参考スコア(独自算出の注目度): 30.125087273625123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finding the optimal configuration of Sparse Mixture-ofExperts (SMoE) that maximizes semantic differentiation among experts is essential for exploiting the full potential of MoE architectures. However, existing SMoE frameworks either heavily rely on hyperparameter tuning or overlook the importance of diversifying semantic roles across experts when adapting the expert pool size. We propose Mixture-of-Experts for Adaptive Semantic Specialization (MASS), a semanticaware MoE framework for adaptive expert expansion and dynamic routing. MASS introduces two key advancements: (i) a gradient-based semantic drift detector that prompts targeted expert expansion when the existing expert pool lacks capacity to capture the full semantic diversity of the data, and (ii) an integration of adaptive routing strategy that dynamically adjusts expert usage based on token-level routing confidence mass. We first demonstrate that MASS reliably converges to the point of optimal balance between cost-performance trade-off with notably improved sematic specialization in a highly controlled synthetic setup. Further empirical results on real-world datasets across language and vision domains show that MASS consistently outperforms a range of strong MoE baselines, demonstrating its domain robustness and enhanced expert specialization.
- Abstract(参考訳): 専門家間のセマンティックな区別を最大化するスパース・ミックス・オブ・エクスプット(SMoE)の最適構成を見つけることは、MoEアーキテクチャの潜在能力を最大限に活用するために不可欠である。
しかし、既存のSMoEフレームワークは、ハイパーパラメータチューニングに大きく依存するか、エキスパートプールサイズに適応する際、専門家間でセマンティックロールを多様化することの重要性を見落としている。
適応型セマンティックスペシャライゼーションのためのMixture-of-Experts for Adaptive Semantic Specialization (MASS)を提案する。
MASSは2つの重要な進歩を紹介している。
一 既存の専門家プールがデータの完全な意味的多様性を捉える能力に欠けたときに、目標とする専門家の拡大を促す勾配に基づくセマンティックドリフト検出器
(2)トークンレベルのルーティング信頼度に基づいて専門家の使用量を動的に調整する適応的ルーティング戦略の統合。
まず、MASSはコストパフォーマンストレードオフの最適バランス点に確実に収束し、高度に制御された合成装置においてセマティックな特殊化が顕著に向上することを示した。
言語と視覚領域をまたいだ実世界のデータセットに関するさらなる実証的な結果から、MASSは一連の強力なMoEベースラインを一貫して上回り、ドメインの堅牢性と専門家の専門性の向上を実証している。
関連論文リスト
- AnyExperts: On-Demand Expert Allocation for Multimodal Language Models with Mixture of Expert [26.761443359046286]
我々はAnyExpertsという新しいオンデマンド・予算対応動的ルーティングフレームワークを提案する。
トークンごとに、その意味的重要性に基づいて、可変な専門家スロット数を割り当てる。
視覚的理解、音声理解、NLP理解の様々なタスクにまたがって評価される。
論文 参考訳(メタデータ) (2025-11-23T06:53:43Z) - Beyond Redundancy: Diverse and Specialized Multi-Expert Sparse Autoencoder [59.89996751196727]
スパースオートエンコーダ(SAE)は、大規模な言語モデルを解釈するための強力なツールとして登場した。
SAEの隠蔽層は、空間的制約を満たすために高い次元性を持ち、結果として禁止的なトレーニングと推論コストをもたらす。
近年のMixture of Experts (MoE) アプローチは、SAEsによってゲートアクティベーションを持つより狭い専門家ネットワークにこの問題に対処しようとしている。
本稿では,(1)専門化を促進するために意味的に重み付けされた専門家サブセットを同時に関与する複数の専門家活性化,(2)適応的な高周波スケーリングによって多様性を高める特徴スケーリングという2つの重要なイノベーションを提案する。
論文 参考訳(メタデータ) (2025-11-07T22:19:34Z) - Mixture-of-Clustered-Experts: Advancing Expert Specialization and Generalization in Instruction Tuning [30.804111793049938]
そこで本稿では,Mixture-of-Clustered-Experts (MoCE) を提案する。
メカニズムの第1段階はシーケンスレベルの特徴に基づいたエキスパートグループルーティングを実行し、第2段階はトークンレベルでグループ内のトップ$kのエキスパートを起動する。
我々は、MoCEを一連のベンチマークで評価し、強力なベースラインよりも一貫した優位性と拡張された一般化能力を示す。
論文 参考訳(メタデータ) (2025-09-03T07:17:35Z) - MoE-MLoRA for Multi-Domain CTR Prediction: Efficient Adaptation with Expert Specialization [0.0]
MoE-MLoRAはエキスパートの混成フレームワークで、各専門家はドメインを専門にするために独立して訓練される。
MoE-MLoRAはMovielensとTaobaoの8つのCTRモデルで評価した。
論文 参考訳(メタデータ) (2025-06-09T09:03:05Z) - On DeepSeekMoE: Statistical Benefits of Shared Experts and Normalized Sigmoid Gating [75.29576838162714]
DeepSeekMoEは、共有専門家戦略の展開と正規化されたシグモイドゲーティングメカニズムの2つのユニークな特徴から際立っている。
本研究では, 共有専門家戦略と正規化シグモイドゲーティングの両方において, サンプル効率の利得を明らかにするために, 専門家推定タスクの収束解析を行う。
論文 参考訳(メタデータ) (2025-05-16T04:58:18Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - Flexible and Adaptable Summarization via Expertise Separation [59.26639426529827]
熟練した要約モデルは、柔軟性と適応性の両方を示すべきである。
我々は,Mixture-of-Expert SummarizationアーキテクチャであるMoeSummを提案する。
我々のモデルでは、一般とドメイン固有の要約能力の分離は、顕著な柔軟性と適応性を与えている。
論文 参考訳(メタデータ) (2024-06-08T05:31:19Z) - Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文 参考訳(メタデータ) (2024-04-23T13:47:09Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。