論文の概要: Modeling Expert Interactions in Sparse Mixture of Experts via Graph Structures
- arxiv url: http://arxiv.org/abs/2510.16411v1
- Date: Sat, 18 Oct 2025 09:03:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.985763
- Title: Modeling Expert Interactions in Sparse Mixture of Experts via Graph Structures
- Title(参考訳): グラフ構造を用いたエキスパートの疎混合におけるエキスパートインタラクションのモデル化
- Authors: Minh-Khoi Nguyen-Nhat, Rachel S. Y. Teo, Laziz Abdullaev, Maurice Mok, Viet-Hoang Tran, Tan Minh Nguyen,
- Abstract要約: 我々はSMoEの新しいファミリーであるSymphonySMoEを紹介し、専門家間の相互作用をモデル化するためのソーシャルグラフを導入した。
SymphonySMoEは軽量でモジュール化されており、既存のSMoEベースのモデルとシームレスに統合されている。
- 参考スコア(独自算出の注目度): 19.516704475811522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Mixture of Experts (SMoE) has emerged as a promising solution to achieving unparalleled scalability in deep learning by decoupling model parameter count from computational cost. By activating only a small subset of parameters per sample, SMoE enables significant growth in model capacity while maintaining efficiency. However, SMoE struggles to adapt to distributional shifts, leading to reduced robustness under data contamination. In this work, we introduce SymphonySMoE, a novel family of SMoE that introduces a social graph to model interactions among experts. This graph-based structure enhances the token routing process, addressing the robustness challenges that are inherent in conventional SMoE designs. SymphonySMoE is lightweight, modular, and integrates seamlessly with existing SMoE-based models such as the XMoE and the Generalist Language Model. We provide both theoretical analysis and empirical evidence demonstrating SymphonySMoE's advantages over baseline SMoE. Extensive experiments on language modeling and visual instruction tuning validate our method's effectiveness. We further highlight the scalability of SymphonySMoE to models with 4.2 and 7.4 billion parameters, showcasing its applicability in fine-tuning tasks for large-scale systems.
- Abstract(参考訳): SMOE(Sparse Mixture of Experts)は、モデルパラメータ数を計算コストから分離することで、ディープラーニングにおける非並列スケーラビリティを実現するための有望なソリューションとして登場した。
サンプルあたりのパラメータの小さなサブセットのみを活性化することにより、SMoEは効率を保ちながらモデルのキャパシティを著しく向上させることができる。
しかし、SMoEは分散シフトへの適応に苦しむため、データの汚染下では堅牢性が低下する。
本研究では,SMoEの新たなファミリーであるSymphonySMoEを紹介する。
このグラフベースの構造はトークンルーティングプロセスを強化し、従来のSMoE設計に固有のロバスト性問題に対処する。
SymphonySMoEは軽量でモジュール化されており、XMoEやジェネラリスト言語モデルといった既存のSMoEベースのモデルとシームレスに統合されている。
我々は,ベースラインSMoEに対するSymphonySMoEの優位性を示す理論的解析と実証的証拠の両方を提供する。
本手法の有効性を検証するために,言語モデリングおよび視覚的指導指導に関する広範囲な実験を行った。
さらに、SymphonySMoEの4.2および7.4億のパラメータを持つモデルへのスケーラビリティを強調し、大規模システムにおける微調整タスクへの適用性を示す。
関連論文リスト
- Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - MoLAE: Mixture of Latent Experts for Parameter-Efficient Language Models [10.623996218106564]
Mixture of Experts (MoE)は、Large Language Models (LLM)を効率的にスケーリングするための重要なアーキテクチャパラダイムとなっている。
我々は、共有射影を通して専門家の操作を低次元の潜在空間に変換する新しいパラメータ化であるMoLAEを導入し、それに続いて専門家固有の変換を行う。
モデル性能を保ちながら,MoLAEは複数の次元にわたる効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-03-29T14:35:34Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - MomentumSMoE: Integrating Momentum into Sparse Mixture of Experts [2.1605931466490795]
我々は、MomentumSMoEと呼ばれるSMoEの新しいファミリーを提案する。
我々は,MomentumSMoEがSMoEよりも安定で頑健であることを証明する。
我々は、視覚用スパースMoEモデル(V-MoE)や汎用言語モデル(GLaM)など、多くの種類のスパースMoEモデルに対するMomentumSMoEの適用性を実証する。
論文 参考訳(メタデータ) (2024-10-18T16:20:22Z) - Retraining-Free Merging of Sparse MoE via Hierarchical Clustering [14.858134039539697]
本稿では, 疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングについて紹介する。
HC-SMoEは、パラメータ還元のためのタスクに依存しないエキスパートマージフレームワークである。
我々は、QwenやMixtralを含む最先端モデルにおけるHC-SMoEの有効性を示すために、複数のゼロショット言語タスクの理論的解析と評価を行う。
論文 参考訳(メタデータ) (2024-10-11T07:36:14Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。