論文の概要: SD-MoE: Spectral Decomposition for Effective Expert Specialization
- arxiv url: http://arxiv.org/abs/2602.12556v1
- Date: Fri, 13 Feb 2026 03:07:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.825808
- Title: SD-MoE: Spectral Decomposition for Effective Expert Specialization
- Title(参考訳): SD-MoE: 有効専門化のためのスペクトル分解
- Authors: Ruijun Huang, Fang Dong, Xin Zhang, Hengjie Cao, Zhendong Huang, Anrui Chen, Jixian Zhou, Mengyi Chen, Yifeng Yang, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Qin Lv, Robert P. Dick, Yuan Cheng, Fan Yang, Tun Lu, Chun Zhang, Li Shang,
- Abstract要約: Mixture-of-Experts (MoE)アーキテクチャは、条件計算によって引き起こされる専門家の専門化を通じて、大規模言語モデルをスケールする。
一部の専門家は機能的に似ていますが、デファクト共有の専門家として機能し、効果的な能力とモデルパフォーマンスを制限します。
スペクトル空間におけるパラメータと勾配の両方を分解するスペクトル分離型MoE(SD-MoE)を提案する。
- 参考スコア(独自算出の注目度): 29.649486549025138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures scale Large Language Models via expert specialization induced by conditional computation. In practice, however, expert specialization often fails: some experts become functionally similar, while others functioning as de facto shared experts, limiting the effective capacity and model performance. In this work, we analysis from a spectral perspective on parameter and gradient spaces, uncover that (1) experts share highly overlapping dominant spectral components in their parameters, (2) dominant gradient subspaces are strongly aligned across experts, driven by ubiquitous low-rank structure in human corpus, and (3) gating mechanisms preferentially route inputs along these dominant directions, further limiting specialization. To address this, we propose Spectral-Decoupled MoE (SD-MoE), which decomposes both parameter and gradient in the spectral space. SD-MoE improves performance across downstream tasks, enables effective expert specialization, incurring minimal additional computation, and can be seamlessly integrated into a wide range of existing MoE architectures, including Qwen and DeepSeek.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、条件計算によって引き起こされる専門家の専門化を通じて、大規模言語モデルをスケールする。
しかし実際には、専門家の専門化は失敗することが多く、一部の専門家は機能的に類似し、他の専門家は事実上の共有専門家として機能し、効果的な能力とモデルパフォーマンスを制限する。
本研究では,パラメータと勾配空間のスペクトル的視点から分析し,(1)パラメータにおいて有意なスペクトル成分が重なり合うこと,(2)ヒトコーパスにおけるユビキタスな低ランク構造によって支配的な勾配部分空間が専門家の間で強く整合していること,(3)これらの支配的な方向に沿って入力を優先的にルーティングするゲーティング機構が特殊化を制限していることを明らかにする。
そこで本研究では,スペクトル空間のパラメータと勾配の両方を分解するスペクトル分離型MoE(SD-MoE)を提案する。
SD-MoEはダウンストリームタスクのパフォーマンスを改善し、効果的な専門家の専門化を可能にし、最小限の追加計算を行い、QwenやDeepSeekなど、既存のMoEアーキテクチャにシームレスに統合することができる。
関連論文リスト
- How Many Experts Are Enough? Towards Optimal Semantic Specialization for Mixture-of-Experts [30.125087273625123]
適応型エキスパート拡張と動的ルーティングのためのセマンティックアウェアなMoEフレームワークを提案する。
MASSは、コストパフォーマンストレードオフと特にセマティック特殊化の改善の間の最適なバランスの点に収束する。
論文 参考訳(メタデータ) (2025-12-21T05:37:42Z) - Beyond Redundancy: Diverse and Specialized Multi-Expert Sparse Autoencoder [59.89996751196727]
スパースオートエンコーダ(SAE)は、大規模な言語モデルを解釈するための強力なツールとして登場した。
SAEの隠蔽層は、空間的制約を満たすために高い次元性を持ち、結果として禁止的なトレーニングと推論コストをもたらす。
近年のMixture of Experts (MoE) アプローチは、SAEsによってゲートアクティベーションを持つより狭い専門家ネットワークにこの問題に対処しようとしている。
本稿では,(1)専門化を促進するために意味的に重み付けされた専門家サブセットを同時に関与する複数の専門家活性化,(2)適応的な高周波スケーリングによって多様性を高める特徴スケーリングという2つの重要なイノベーションを提案する。
論文 参考訳(メタデータ) (2025-11-07T22:19:34Z) - Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations [48.890534958441016]
本研究では,大規模MoEモデルにおける領域の特殊化と専門的冗長性について検討する。
本稿では,最も関係のある専門家のみを識別・保持するための簡易で効果的な刈取フレームワークであるEASY-EPを提案する。
DeepSeek-R1とDeepSeek-V3-0324の実験は、我々の手法が同じメモリ予算の下で同等の性能と2.99タイムのスループットを達成できることを示した。
論文 参考訳(メタデータ) (2025-04-09T11:34:06Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models [24.915387910764082]
エキスパート特化ファインチューニング(Expert-Specialized Fine-Tuning、ESFT)は、他の専門家やモジュールを凍結しながら、下流のタスクに最も関係のある専門家をチューニングする。
よりきめ細かい専門家によるMoEモデルは、下流タスクに最も関係のある専門家の組み合わせを選択する上でより有利である。
論文 参考訳(メタデータ) (2024-07-02T03:11:13Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。