論文の概要: On Linear Mode Connectivity of Mixture-of-Experts Architectures
- arxiv url: http://arxiv.org/abs/2509.11348v1
- Date: Sun, 14 Sep 2025 16:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.042357
- Title: On Linear Mode Connectivity of Mixture-of-Experts Architectures
- Title(参考訳): ミックス・オブ・エクスプロイトアーキテクチャの線形モード接続性について
- Authors: Viet-Hoang Tran, Van Hoan Trinh, Khanh Vinh Bui, Tan M. Nguyen,
- Abstract要約: ニューラルネットワークにおける線形モード接続(LMC)現象について検討する。
LMCは、ニューラルネットワークのロスランドスケープにおいて顕著な現象であり、独立に訓練されたモデルが、アルゴリズムの様々な対称性まで接続されることになっている。
- 参考スコア(独自算出の注目度): 1.6747713135100666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear Mode Connectivity (LMC) is a notable phenomenon in the loss landscapes of neural networks, wherein independently trained models have been observed to be connected--up to permutation symmetries--by linear paths in parameter space along which the loss remains consistently low. This observation challenges classical views of non-convex optimization and has implications for model ensembling, generalization, and our understanding of neural loss geometry. Inspired by recent studies on LMC in standard neural networks, we systematically investigate this phenomenon within Mixture-of-Experts (MoE) architectures--a class of models known for their scalability and computational efficiency, which combine traditional neural networks--referred to as experts--through a learnable gating mechanism. We begin by conducting a comprehensive analysis of both dense and sparse gating regimes, demonstrating that the symmetries inherent to MoE architectures are fully characterized by permutations acting on both the expert components and the gating function. Building on these foundational findings, we propose a matching algorithm that enables alignment between independently trained MoEs, thereby facilitating the discovery of LMC. Finally, we empirically validate the presence of LMC using our proposed algorithm across diverse MoE configurations--including dense, sparse, and shared-expert variants--under a wide range of model settings and datasets of varying scales and modalities. Our results confirm the existence of LMC in MoE architectures and offer fundamental insights into the functional landscape and optimization dynamics of deep learning models.
- Abstract(参考訳): 線形モード接続性(LMC)は、ニューラルネットワークの損失ランドスケープにおいて顕著な現象であり、独立に訓練されたモデルでは、損失が一貫して低いパラメータ空間における線形パスによって接続されることが観察されている。
この観察は、非凸最適化の古典的な見解に挑戦し、モデルアンサンブル、一般化、神経損失幾何学の理解に影響を及ぼす。
標準ニューラルネットワークにおけるLCCに関する最近の研究から着想を得たこの現象は、従来のニューラルネットワークをエキスパートとして参照する、スケーラビリティと計算効率で知られたモデル群であるMixture-of-Experts(MoE)アーキテクチャにおいて、体系的に研究されている。我々は、高密度かつスパースなゲーティング機構の両方を包括的に分析し、MoEアーキテクチャに固有の対称性が、エキスパートコンポーネントとゲーティング関数の両方に作用する置換によって完全に特徴付けられることを実証することから始める。これらの基礎的な知見に基づいて、独立に訓練されたMoE間の整合性を実現するマッチングアルゴリズムを提案し、LMCの発見を容易にする。
本結果は,MoE アーキテクチャにおける LMC の存在を確認し,深層学習モデルの機能的ランドスケープと最適化のダイナミクスに関する基本的な知見を提供する。
関連論文リスト
- DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Generalized Factor Neural Network Model for High-dimensional Regression [50.554377879576066]
複素・非線形・雑音に隠れた潜在低次元構造を持つ高次元データセットをモデル化する課題に取り組む。
我々のアプローチは、非パラメトリック回帰、因子モデル、高次元回帰のためのニューラルネットワークの概念のシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-02-16T23:13:55Z) - Learning Mixtures of Experts with EM: A Mirror Descent Perspective [28.48469221248906]
古典的なMixtures of Experts(MoE)は、入力空間を含む機械学習モデルであり、各パーティションでトレーニングされた個別の"エキスパート"モデルである。
我々は,MoEモデルのトレーニングにおける期待最大化(EM)アルゴリズムの理論的保証について検討する。
論文 参考訳(メタデータ) (2024-11-09T03:44:09Z) - Symmetry-enforcing neural networks with applications to constitutive modeling [0.0]
本研究では,非線形および履歴依存行動を示す複雑なミクロ構造を均質化するために,最先端のマイクロメカニカルモデリングと高度な機械学習技術を組み合わせる方法について述べる。
結果として得られるホモジェナイズドモデルであるスマート法則(SCL)は、従来の並列マルチスケールアプローチで必要とされる計算コストのごく一部で、マイクロインフォメーション法を有限要素ソルバに適用することができる。
本研究では、ニューロンレベルで物質対称性を強制する新しい方法論を導入することにより、SCLの機能を拡張する。
論文 参考訳(メタデータ) (2023-12-21T01:12:44Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。