論文の概要: Spectral Manifold Regularization for Stable and Modular Routing in Deep MoE Architectures
- arxiv url: http://arxiv.org/abs/2601.03889v1
- Date: Wed, 07 Jan 2026 12:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.193937
- Title: Spectral Manifold Regularization for Stable and Modular Routing in Deep MoE Architectures
- Title(参考訳): 深いMOEアーキテクチャにおける安定およびモジュラールーティングのためのスペクトルマニフォールド規則化
- Authors: Ibrahim Delibasoglu,
- Abstract要約: エキスパートの混在(MoE)アーキテクチャは、ニューラルネットワークの効率的なスケーリングを可能にするが、専門家の崩壊に苦しむ。
構造的モジュラリティを強制するために、ルーティング多様体に幾何的制約を課すスペクトル規則化エキスパート混合(SR-MoE)を提案する。
- 参考スコア(独自算出の注目度): 2.538209532048867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture of Experts (MoE) architectures enable efficient scaling of neural networks but suffer from expert collapse, where routing converges to a few dominant experts. This reduces model capacity and causes catastrophic interference during adaptation. We propose the Spectrally-Regularized Mixture of Experts (SR-MoE), which imposes geometric constraints on the routing manifold to enforce structural modularity. Our method uses dual regularization: spectral norm constraints bound routing function Lipschitz continuity, while stable rank penalties preserve high-dimensional feature diversity in expert selection. We evaluate SR-MoE across architectural scales and dataset complexities using modular one-shot adaptation tasks. Results show that traditional linear gating fails with increasing depth (accuracy drops up to 4.72% due to expert entanglement), while SR-MoE maintains structural integrity (mean interference -0.32%). Our spectral constraints facilitate positive knowledge transfer, enabling localized expert updates without global performance decay. SR-MoE provides a general solution for building high-capacity, modular networks capable of stable lifelong learning.
- Abstract(参考訳): Mixture of Experts (MoE)アーキテクチャは、ニューラルネットワークの効率的なスケーリングを可能にするが、ルーティングがいくつかの支配的な専門家に収束する専門家の崩壊に苦しむ。
これによりモデル容量が減少し、適応中に破滅的な干渉を引き起こす。
構造的モジュラリティを強制するために、ルーティング多様体に幾何的制約を課すスペクトル規則化エキスパート混合(SR-MoE)を提案する。
スペクトルノルム制約バウンド・ルーティング関数 リップシッツ連続性(英語版) に対して、安定なランクのペナルティは、専門家の選択において高次元の特徴の多様性を保っている。
アーキテクチャスケールやデータセットの複雑さを考慮したSR-MoEを,モジュール型ワンショット適応タスクを用いて評価する。
その結果、従来の線形ゲーティングは深さの増大とともに失敗し(専門家の絡み合いにより精度は4.72%まで低下する)、SR-MoEは構造的整合性を維持している(平均干渉-0.32%)。
コントラスト制約はポジティブな知識伝達を促進するため,グローバルな性能低下を伴わずに,専門家の局所的な更新を可能にする。
SR-MoEは、生涯安定学習が可能な高容量モジュールネットワークを構築するための一般的なソリューションを提供する。
関連論文リスト
- Mixture of Ranks with Degradation-Aware Routing for One-Step Real-World Image Super-Resolution [76.66229730098759]
実世界の画像超解像(Real-ISR)では、既存のアプローチは主に微調整された事前学習拡散モデルに依存している。
単一ステップ画像超解像のためのMixture-of-Ranks (MoR)アーキテクチャを提案する。
LoRAの各ランクを独立した専門家として扱う、きめ細かい専門家分割戦略を導入する。
論文 参考訳(メタデータ) (2025-11-20T04:11:44Z) - ERMoE: Eigen-Reparameterized Mixture-of-Experts for Stable Routing and Interpretable Specialization [13.182475975397251]
ERMoEは、学習したゲーティングログを"Eigenbasis Score"に置き換えるスパースなMoE変換器である
ERMoE は ImageNet 分類と クロスモーダル画像テキスト検索ベンチマークにおける最先端の精度を実現する。
3D MRI変異体(ERMoE-ba)は、脳年齢予測の精度を7%以上改善し、解釈可能な専門家の専門化をもたらす。
論文 参考訳(メタデータ) (2025-11-14T05:31:37Z) - Guided by the Experts: Provable Feature Learning Dynamic of Soft-Routed Mixture-of-Experts [11.437368205968573]
本稿では,非線形ルータと専門家によるソフトローイング型MoEモデルの連成訓練のための収束保証を提供することにより,MoE理論を推し進める。
訓練後プルーニングは、効果的に冗長ニューロンを除去し、続いて、大域的最適性に到達した、確実に収束した微調整プロセスを示す。
論文 参考訳(メタデータ) (2025-10-08T16:40:31Z) - Towards Generalized Range-View LiDAR Segmentation in Adverse Weather [65.22588361803942]
我々は、厳しい天候下でのLiDARセグメンテーションの一般化に影響を及ぼす固有の課題を特定し、分析する。
既存のモデルのコアアーキテクチャを変更することなく、ロバスト性を高めるモジュール式で軽量なフレームワークを提案する。
提案手法は,推定オーバーヘッドを最小限に抑え,悪天候への一般化を著しく改善する。
論文 参考訳(メタデータ) (2025-06-10T16:48:27Z) - Rethinking Gating Mechanism in Sparse MoE: Handling Arbitrary Modality Inputs with Confidence-Guided Gate [18.379123927374042]
本稿では,SMoE アーキテクチャに欠落するモダリティ問題に対処する 2 段階の命令モジュールを導入するための ConfSMoE を提案する。
我々の理論分析から着想を得たConfSMoEは、ソフトマックスルーティングスコアをタスク信頼スコアw.r.tグラウンド真理信号に分解することで、新しい専門家ゲーティング機構を提案する。
論文 参考訳(メタデータ) (2025-05-26T05:18:55Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Efficient Deweather Mixture-of-Experts with Uncertainty-aware
Feature-wise Linear Modulation [44.43376913419967]
本稿では,専門家間での重み共有が可能なMixture-of-Experts(MoE)アーキテクチャを提案する。
MoFMEは、単一の共有専門家ブロック上で学習可能なアクティベーション変調を通じて、暗黙的に複数の専門家をインスタンス化する。
実験の結果,MoFMEは画像修復品質の基準線を0.1-0.2dBで上回ることがわかった。
論文 参考訳(メタデータ) (2023-12-27T15:23:37Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。