論文の概要: Beyond Standard MoE: Mixture of Latent Experts for Resource-Efficient Language Models
- arxiv url: http://arxiv.org/abs/2503.23100v1
- Date: Sat, 29 Mar 2025 14:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:38:46.329865
- Title: Beyond Standard MoE: Mixture of Latent Experts for Resource-Efficient Language Models
- Title(参考訳): 標準MOEを超えて - リソース効率の良い言語モデルのための潜在専門家の混在
- Authors: Zehua Liu, Han Wu, Ruifeng She, Xiaojin Fu, Xiongwei Han, Tao Zhong, Mingxuan Yuan,
- Abstract要約: 本稿では,特定の専門家の共有潜在空間へのマッピングを容易にする新しいパラメータ化手法を提案する。
すべてのエキスパート演算は、体系的に2つの主成分に分解される: 共有射影を低次元の潜在空間に分割し、その後専門家固有の変換を行う。
この分解されたアプローチは、パラメータ数と計算要求を大幅に減少させる。
- 参考スコア(独自算出の注目度): 10.623996218106564
- License:
- Abstract: Mixture of Experts (MoE) has emerged as a pivotal architectural paradigm for efficient scaling of Large Language Models (LLMs), operating through selective activation of parameter subsets for each input token. Nevertheless, conventional MoE architectures encounter substantial challenges, including excessive memory utilization and communication overhead during training and inference, primarily attributable to the proliferation of expert modules. In this paper, we introduce Mixture of Latent Experts (MoLE), a novel parameterization methodology that facilitates the mapping of specific experts into a shared latent space. Specifically, all expert operations are systematically decomposed into two principal components: a shared projection into a lower-dimensional latent space, followed by expert-specific transformations with significantly reduced parametric complexity. This factorized approach substantially diminishes parameter count and computational requirements. Beyond the pretraining implementation of the MoLE architecture, we also establish a rigorous mathematical framework for transforming pre-trained MoE models into the MoLE architecture, characterizing the sufficient conditions for optimal factorization and developing a systematic two-phase algorithm for this conversion process. Our comprehensive theoretical analysis demonstrates that MoLE significantly enhances computational efficiency across multiple dimensions while preserving model representational capacity. Empirical evaluations corroborate our theoretical findings, confirming that MoLE achieves performance comparable to standard MoE implementations while substantially reducing resource requirements.
- Abstract(参考訳): Mixture of Experts (MoE)は、入力トークンごとにパラメータサブセットを選択的にアクティベートすることで、LLM(Large Language Models)の効率的なスケーリングのための重要なアーキテクチャパラダイムとして登場した。
それにもかかわらず、従来のMoEアーキテクチャは、トレーニングや推論における過剰なメモリ利用や通信オーバーヘッドなど、主にエキスパートモジュールの拡散に起因する重大な課題に直面している。
本稿では、特定の専門家の共通潜伏空間へのマッピングを容易にする新しいパラメータ化手法であるMixture of Latent Experts(MoLE)を紹介する。
具体的には、すべての専門家演算は体系的に2つの主成分に分解される: 共有射影を低次元の潜在空間に分割し、続いてパラメトリックな複雑さを著しく減少させる専門家固有の変換を行う。
この分解されたアプローチは、パラメータ数と計算要求を大幅に減少させる。
事前学習されたMoEモデルをMoLEアーキテクチャに変換するための厳密な数学的枠組みを構築し、最適分解のための十分な条件をキャラクタリゼーションし、この変換プロセスのための体系的な2相アルゴリズムを開発する。
包括的理論解析により,MOLEはモデル表現能力を維持しながら,複数の次元にわたる計算効率を著しく向上させることを示した。
実験的な評価は,MoLEが標準のMoE実装に匹敵する性能を達成し,資源要求を大幅に低減し,我々の理論的な結果を裏付けるものである。
関連論文リスト
- DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Joint MoE Scaling Laws: Mixture of Experts Can Be Memory Efficient [4.34286535607654]
我々は,高密度モデルとMoEモデルに対する共同スケーリング法則を提案し,アクティブパラメータ数,データセットサイズ,エキスパート数といった重要な要素を取り入れた。
驚くべきことに、従来の知恵とは対照的に、MoEモデルは高密度モデルよりもメモリ効率が高いことが示される。
論文 参考訳(メタデータ) (2025-02-07T18:55:38Z) - MergeME: Model Merging Techniques for Homogeneous and Heterogeneous MoEs [45.20965298945085]
本稿では,パラメータ干渉を緩和する手法,ルーティング,アーキテクチャの異なる専門家をマージするための新しい手法など,新たなMoEマージ手法を提案する。
複数の領域にわたる実験により,提案手法の有効性,微調整コストの低減,最先端手法の性能向上,MoEマージの適用性の向上が示された。
論文 参考訳(メタデータ) (2025-02-03T02:34:46Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - Scalable Multi-Domain Adaptation of Language Models using Modular Experts [10.393155077703653]
MoDEは、モジュール化されたドメインの専門家による一般的なPLMを強化する、エキスパートの混成アーキテクチャである。
MoDEは完全なパラメータの微調整に匹敵する目標性能を達成し、保持性能は1.65%向上した。
論文 参考訳(メタデータ) (2024-10-14T06:02:56Z) - Retraining-Free Merging of Sparse MoE via Hierarchical Clustering [14.858134039539697]
本稿では, 疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングについて紹介する。
HC-SMoEは、パラメータ還元のためのタスクに依存しないエキスパートマージフレームワークである。
我々は、QwenやMixtralを含む最先端モデルにおけるHC-SMoEの有効性を示すために、複数のゼロショット言語タスクの理論的解析と評価を行う。
論文 参考訳(メタデータ) (2024-10-11T07:36:14Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。