論文の概要: Expert Merging in Sparse Mixture of Experts with Nash Bargaining
- arxiv url: http://arxiv.org/abs/2510.16138v1
- Date: Fri, 17 Oct 2025 18:23:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.865108
- Title: Expert Merging in Sparse Mixture of Experts with Nash Bargaining
- Title(参考訳): ナッシュバーゲティングとエキスパートのスパースミックスにおけるエキスパートマージ
- Authors: Dung V. Nguyen, Anh T. Nguyen, Minh H. Nguyen, Luc Q. Nguyen, Shiqi Jiang, Ethan Fetaya, Linh Duy Tran, Gal Chechik, Tan M. Nguyen,
- Abstract要約: NAMEx(Nash Merging of Experts)は,Bargaining Nashをマージプロセスに組み込んだ,新たなフレームワークである。
NAMExは競合するMoEアーキテクチャとシームレスに統合しながら、競合する手法よりも一貫して優れていることを示す。
Qwen1.5-MoE (14B) や DeepSeek-MoE (16B) といった大規模システムに適用することで NAMEx のスケーラビリティを実証する。
- 参考スコア(独自算出の注目度): 33.018789823349145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing expert merging strategies for Sparse Mixture of Experts (SMoE) typically rely on input-dependent or input-independent averaging of expert parameters, but often lack a principled weighting mechanism. In this work, we reinterpret expert merging through the lens of game theory, revealing cooperative and competitive dynamics among experts. Based on this perspective, we introduce Nash Merging of Experts (NAMEx), a novel framework that incorporates Nash Bargaining into the merging process, enabling more balanced and efficient collaboration among experts. Additionally, we incorporate complex momentum into NAMEx to accelerate expert propagation with theoretical guarantees for convergence. Extensive experiments across language modelling, text classification, image classification, and zero-shot robustness under data corruption show that NAMEx consistently outperforms competing methods while integrating seamlessly with popular MoE architectures. Finally, we demonstrate NAMEx's scalability by applying it to large-scale systems, including Qwen1.5-MoE (14B) and DeepSeek-MoE (16B), where it proves effective in both zero-shot and fine-tuning settings.
- Abstract(参考訳): SMOE(Sparse Mixture of Experts)の既存の専門家統合戦略は、通常、エキスパートパラメータの入力依存または入力非依存の平均化に依存しているが、原則的な重み付け機構が欠如していることが多い。
本研究では,ゲーム理論のレンズを融合した専門家を再解釈し,専門家間の協調的・競争的なダイナミクスを明らかにする。
この観点から、私たちはNash Merging of Experts(NAMEx)を紹介します。これは、Nash Barcingをマージプロセスに組み込んだ、専門家間のよりバランスよく効率的なコラボレーションを可能にする新しいフレームワークです。
さらに, NAMEx に複素運動量を導入し, 収束の理論的保証とともに, 専門家の伝播を加速する。
データ破損下での言語モデリング、テキスト分類、画像分類、ゼロショットロバスト性に関する広範な実験は、NAMExが競合する手法を一貫して上回り、人気のあるMoEアーキテクチャとシームレスに統合していることを示している。
最後に,Qwen1.5-MoE (14B) やDeepSeek-MoE (16B) などの大規模システムに適用することにより,NAMExのスケーラビリティを実証する。
関連論文リスト
- Dropping Experts, Recombining Neurons: Retraining-Free Pruning for Sparse Mixture-of-Experts LLMs [54.95810313530111]
DERNは、専門家のプルーニングと再構築のためのタスク非依存でトレーニングなしのフレームワークである。
コモンセンス推論やMMLUベンチマークでは、50%のエキスパートスパシティでパフォーマンスを5%以上向上させる。
論文 参考訳(メタデータ) (2025-09-12T16:09:39Z) - On DeepSeekMoE: Statistical Benefits of Shared Experts and Normalized Sigmoid Gating [75.29576838162714]
DeepSeekMoEは、共有専門家戦略の展開と正規化されたシグモイドゲーティングメカニズムの2つのユニークな特徴から際立っている。
本研究では, 共有専門家戦略と正規化シグモイドゲーティングの両方において, サンプル効率の利得を明らかにするために, 専門家推定タスクの収束解析を行う。
論文 参考訳(メタデータ) (2025-05-16T04:58:18Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。