論文の概要: Preserving Long-Tailed Expert Information in Mixture-of-Experts Tuning
- arxiv url: http://arxiv.org/abs/2604.23036v1
- Date: Fri, 24 Apr 2026 21:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.111245
- Title: Preserving Long-Tailed Expert Information in Mixture-of-Experts Tuning
- Title(参考訳): ミキサード・オブ・エグゼクティブ・チューニングにおける長年のエキスパート情報保存
- Authors: Haoze He, Xingyuan Ding, Xuan Jiang, Xinkai Zou, Alex Cheng, Yibo Zhao, Juncheng Billy Li, Heather Miller,
- Abstract要約: バイアス駆動型スペーサー化と常にアクティブなゲート型凝縮器の専門家を組み合わせた補助損失のないMoE SFTフレームワークを提案する。
提案手法はDenseMixerやESFTといった最先端のSFTベースラインよりも優れており,数学的推論とCommonsenseQAベンチマークの両方で平均2.5%以上向上している。
- 参考スコア(独自算出の注目度): 4.874690972824275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite MoE models leading many benchmarks, supervised fine-tuning (SFT) for the MoE architectures remains difficult because its router layers are fragile. Methods such as DenseMixer and ESFT mitigate router collapse with dense mixing or auxiliary load-balancing losses, but these introduce noisy gradients that often degrade performance. In preliminary experiments, we systematically pruned experts and observed that while certain super experts are activated far more frequently, discarding less used experts still leads to notable performance degradation. This suggests that even rarely activated experts encode non-trivial knowledge useful for downstream tasks. Motivated by this, we propose an auxiliary-loss-free MoE SFT framework that combines bias-driven sparsification with always-active gated condenser experts. Rather than enforcing balanced activation across all experts, our method encourages task-relevant experts to remain active while pushing long-tailed experts toward inactivity. The condenser experts provide a persistent, learnable pathway that alleviates gradient starvation and facilitates consolidation of information that would otherwise remain fragmented across sparsely activated experts. Analysis further suggest that this design better preserves long-tailed expert information under sparse routing. Experiments on large-scale MoE models demonstrate that our approach outperforms state-of-the-art SFT baselines such as DenseMixer and ESFT, achieving average gain of 2.5%+ on both mathematical reasoning and commonsenseQA benchmarks.
- Abstract(参考訳): 多くのベンチマークをリードするMoEモデルにもかかわらず、MoEアーキテクチャの教師付き微調整(SFT)は、ルータ層が脆弱であるため難しいままである。
DenseMixerやESFTのような手法は、密混合や補助負荷分散損失を伴うルータの崩壊を緩和するが、これらの手法は、しばしば性能を低下させるノイズのある勾配をもたらす。
予備実験では、系統的に専門家を搾取し、一部のスーパーエキスパートがより頻繁に活性化されているにもかかわらず、あまり使われていない専門家を捨てると、依然として顕著なパフォーマンス劣化につながることを観察した。
これは、アクティベートされた専門家でさえ、下流タスクに有用な非自明な知識をエンコードしていることを示唆している。
そこで本研究では,バイアス駆動型スペーサー化と常にアクティブなゲート型凝縮器の専門家を組み合わせた補助的ロスフリーMoE SFTフレームワークを提案する。
全ての専門家にバランスの取れたアクティベーションを強制するのではなく、我々の手法はタスク関連の専門家が活動を続けるのを奨励し、長い尾を持つ専門家を非活動に向かわせる。
凝縮器の専門家は、緩やかな飢餓を緩和し、緩やかに活性化された専門家の間で断片化される情報の統合を促進する永続的で学習可能な経路を提供する。
分析により、この設計はスパースルーティングの下で長い尾を持つ専門家情報をよりよく保存することを示唆している。
DenseMixer や ESFT のような最先端の SFT ベースラインよりも優れており,数学的推論とコモンセンスQA ベンチマークの両方で平均2.5%以上向上している。
関連論文リスト
- Awakening Dormant Experts:Counterfactual Routing to Mitigate MoE Hallucinations [47.02065120237642]
本稿では,専門家の覚醒を目的としたトレーニングフリー推論フレームワークCoRを提案する。
CoRは、計算資源を動的にシフトさせるために、レイヤーワイド摂動解析とCEI(Counterfactual Expert Impact)メトリクスを統合する。
TruthfulQA、FACTOR、TriviaQAの実験では、予測予算を増やさずに、CoRが現実の精度を平均3.1%向上することを示した。
論文 参考訳(メタデータ) (2026-04-15T06:21:47Z) - Synergistic Intra- and Cross-Layer Regularization Losses for MoE Expert Specialization [10.669680236190432]
そこで本研究では,MoEの特殊化とルーティング効率を向上させる2つのプラグアンドプレイ正規化損失を提案する。
両方の損失をMegatron-LMモジュールとして実装する。
論文 参考訳(メタデータ) (2026-02-15T14:19:12Z) - SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning [83.66308307152808]
マルチモーダル・インストラクション・チューニング(MCIT)のためのStAbilized Mixture-of-Experts(SAME)を提案する。
プロプライエタリは、サブスペースへのルーティングダイナミクスを分解し、タスク関連方向のみを更新することで、専門家の選択を安定化する。
また、トレーニング中に選択した専門家を凍結するためにアダプティブな専門家アクティベーションを導入し、冗長でクロスタスクな干渉を減らす。
論文 参考訳(メタデータ) (2026-02-02T11:47:06Z) - MoE Pathfinder: Trajectory-driven Expert Pruning [19.790092938955336]
本稿では, 各層にまたがるアクティベート専門家の軌道に基づくプルーニング手法を提案する。
提案手法は,既存のほとんどの手法と比較して,ほぼすべてのタスクにおいて優れたプルーニング性能を実現する。
論文 参考訳(メタデータ) (2025-12-20T17:05:08Z) - Finding Fantastic Experts in MoEs: A Unified Study for Expert Dropping Strategies and Observations [86.90549830760513]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
多様な視点から専門家の重要度を推定するためのベンチマークとして,MoE Experts Compression Suite (MC-Suite)を提案する。
我々は,SMoEsの指示追従能力が主に損なわれるという,実験的に検証された予想を提示する。
論文 参考訳(メタデータ) (2025-04-08T00:49:08Z) - Advancing MoE Efficiency: A Collaboration-Constrained Routing (C2R) Strategy for Better Expert Parallelism Design [36.35520569052556]
Mixture-of-Experts (MoE)は、ほぼ一定の計算コストを維持しながら、モデルをスケールアップすることに成功している。
我々は、より専門的な専門家グループを促進するために、新しい協調制約付きルーティング(C2R)戦略を提案する。
我々は10下流のNLPベンチマークで0.51%と0.33%の平均性能改善を実現した。
論文 参考訳(メタデータ) (2025-04-02T03:51:59Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。