論文の概要: Guided by the Experts: Provable Feature Learning Dynamic of Soft-Routed Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2510.07205v1
- Date: Wed, 08 Oct 2025 16:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.633921
- Title: Guided by the Experts: Provable Feature Learning Dynamic of Soft-Routed Mixture-of-Experts
- Title(参考訳): 専門家が指導する:ソフト・ルート・ミックス・オブ・エクスプロイトの確率的特徴学習ダイナミック
- Authors: Fangshuo Liao, Anastasios Kyrillidis,
- Abstract要約: 本稿では,非線形ルータと専門家によるソフトローイング型MoEモデルの連成訓練のための収束保証を提供することにより,MoE理論を推し進める。
訓練後プルーニングは、効果的に冗長ニューロンを除去し、続いて、大域的最適性に到達した、確実に収束した微調整プロセスを示す。
- 参考スコア(独自算出の注目度): 11.437368205968573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures have emerged as a cornerstone of modern AI systems. In particular, MoEs route inputs dynamically to specialized experts whose outputs are aggregated through weighted summation. Despite their widespread application, theoretical understanding of MoE training dynamics remains limited to either separate expert-router optimization or only top-1 routing scenarios with carefully constructed datasets. This paper advances MoE theory by providing convergence guarantees for joint training of soft-routed MoE models with non-linear routers and experts in a student-teacher framework. We prove that, with moderate over-parameterization, the student network undergoes a feature learning phase, where the router's learning process is ``guided'' by the experts, that recovers the teacher's parameters. Moreover, we show that a post-training pruning can effectively eliminate redundant neurons, followed by a provably convergent fine-tuning process that reaches global optimality. To our knowledge, our analysis is the first to bring novel insights in understanding the optimization landscape of the MoE architecture.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、現代のAIシステムの基盤として現れている。
特に、MoEsルートは、重み付け和によって出力が集約される専門の専門家に動的に入力する。
広く応用されているにもかかわらず、MoEトレーニングのダイナミックスの理論的理解は、個別のエキスパートルータ最適化か、慎重に構築されたデータセットを持つトップ1ルーティングシナリオに限られている。
本稿では,非線形ルータを用いたソフトローイング型MoEモデルと,学生-教師フレームワークのエキスパートとの合同学習のための収束保証を提供することにより,MoE理論を推し進める。
学生ネットワークは,中程度の過度パラメータ化によって,教師のパラメータを回復するルータの学習プロセスが'Guided'である機能学習フェーズを実施できることを実証する。
さらに, 学習後プルーニングは, 冗長ニューロンを効果的に除去し, 続いて, 大域的最適性に到達した, 確実に収束した微調整プロセスを示す。
私たちの知る限り、私たちの分析はMoEアーキテクチャの最適化の展望を理解するための新しい洞察をもたらす最初のものです。
関連論文リスト
- Beyond Benchmarks: Understanding Mixture-of-Experts Models through Internal Mechanisms [55.1784306456972]
Mixture-of-Experts (MoE)アーキテクチャは、推論中にパラメータのサブセットだけをアクティベートすることで、効率とスケーラビリティを提供する、有望な方向性として登場した。
内部メトリックを用いて、ルーティング機構を明示的に取り入れ、専門家レベルの振る舞いを分析することで、MoEアーキテクチャのメカニズムを解明する。
その結果,(1)モデルの発展に伴ってニューロンの利用が減少し,より高度な一般化が期待できる,(2)ベンチマークのパフォーマンスが限られた信号のみを提供するダイナミックな軌道を示す,(3)複数の専門家の協力的貢献からタスク完了が生じる,(4)ニューロンレベルでの活性化パターンがデータ多様性のきめ細かいプロキシを提供する,といった結果が得られた。
論文 参考訳(メタデータ) (2025-09-28T15:13:38Z) - On Linear Mode Connectivity of Mixture-of-Experts Architectures [1.6747713135100666]
ニューラルネットワークにおける線形モード接続(LMC)現象について検討する。
LMCは、ニューラルネットワークのロスランドスケープにおいて顕著な現象であり、独立に訓練されたモデルが、アルゴリズムの様々な対称性まで接続されることになっている。
論文 参考訳(メタデータ) (2025-09-14T16:51:41Z) - Dynamic Acoustic Model Architecture Optimization in Training for ASR [51.21112094223223]
DMAOは、Grow-and-drop戦略を使用して、トレーニング中にパラメータを自動的に再配置するアーキテクチャ最適化フレームワークである。
CTC onSpeech, TED-Lium-v2, Switchboard を用いてDMAOの評価を行った。
論文 参考訳(メタデータ) (2025-06-16T07:47:34Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - Soft Merging of Experts with Adaptive Routing [38.962451264172856]
適応ルーティングによるエキスパートのソフトマージ(SMEAR)について紹介する
SMEARは、専門家のパラメータの重み付け平均を通して構築された単一の「マージされた」専門家を使用することで、離散的なルーティングを避ける。
我々は,メタデータに基づいた経路モデルや,勾配推定によるスパースルーティングを学習するSMEARモデルを用いたモデルの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-06T15:04:31Z) - Improving Expert Specialization in Mixture of Experts [0.7366405857677227]
エキスパートの混合(MoE)は、最も単純なゲート付きモジュラーニューラルネットワークアーキテクチャである。
元のMoEアーキテクチャとそのトレーニング手法は直感的なタスク分解と優れた専門家の活用を保証するものではないことを示す。
我々は,注目度に類似した新しいゲーティングアーキテクチャを導入し,性能を向上し,エントロピータスクの分解を低くする。
論文 参考訳(メタデータ) (2023-02-28T16:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。