論文の概要: Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts
- arxiv url: http://arxiv.org/abs/2508.07785v1
- Date: Mon, 11 Aug 2025 09:15:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.025197
- Title: Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts
- Title(参考訳): Grove MoE: Ajugate Expertsによる効率的かつ高機能なMOE LLMを目指して
- Authors: Haoyuan Wu, Haoxing Chen, Xiaodong Chen, Zhanchao Zhou, Tieyuan Chen, Yihong Zhuang, Guoshan Lu, Zenan Huang, Junbo Zhao, Lin Liu, Zhenzhong Lan, Bei Yu, Jianguo Li,
- Abstract要約: 我々はGrove MoEを紹介した。Grove MoEは、大きな.LITTLE CPUアーキテクチャにインスパイアされた、さまざまなサイズのエキスパートを取り入れた新しいアーキテクチャである。
このアーキテクチャは、動的アクティベーション機構を備えた新しいアジュゲートの専門家を特徴とし、管理可能な計算オーバーヘッドを維持しながら、モデルのキャパシティ拡張を可能にする。
本稿では,Qwen3-30B-A3B-Baseモデルに対して,トレーニング中および後トレーニング中の上昇戦略を適用したGroveMoE-BaseとGroveMoE-Inst,33B-パラメータLSMを提案する。
- 参考スコア(独自算出の注目度): 31.309954005565295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Mixture of Experts (MoE) architecture is a cornerstone of modern state-of-the-art (SOTA) large language models (LLMs). MoE models facilitate scalability by enabling sparse parameter activation. However, traditional MoE architecture uses homogeneous experts of a uniform size, activating a fixed number of parameters irrespective of input complexity and thus limiting computational efficiency. To overcome this limitation, we introduce Grove MoE, a novel architecture incorporating experts of varying sizes, inspired by the heterogeneous big.LITTLE CPU architecture. This architecture features novel adjugate experts with a dynamic activation mechanism, enabling model capacity expansion while maintaining manageable computational overhead. Building on this architecture, we present GroveMoE-Base and GroveMoE-Inst, 33B-parameter LLMs developed by applying an upcycling strategy to the Qwen3-30B-A3B-Base model during mid-training and post-training. GroveMoE models dynamically activate 3.14-3.28B parameters based on token complexity and achieve performance comparable to SOTA open-source models of similar or even larger size.
- Abstract(参考訳): Mixture of Experts (MoE)アーキテクチャは、現代の最先端(SOTA)大規模言語モデル(LLM)の基盤となっている。
MoEモデルはスパースパラメータアクティベーションを有効にすることでスケーラビリティを促進する。
しかし、従来のMoEアーキテクチャは均一なサイズの均質な専門家を用いており、入力の複雑さに関係なく一定の数のパラメータを活性化し、計算効率を制限している。
この制限を克服するために、Grove MoEを紹介します。Grove MoEは、異質なBig.LITTLE CPUアーキテクチャにインスパイアされた、さまざまなサイズのエキスパートを取り入れた新しいアーキテクチャです。
このアーキテクチャは、動的アクティベーション機構を備えた新しいアジュゲートの専門家を特徴とし、管理可能な計算オーバーヘッドを維持しながら、モデルのキャパシティ拡張を可能にする。
このアーキテクチャに基づいて、トレーニング中のQwen3-30B-A3B-Baseモデルにアップサイクリング戦略を適用したGroveMoE-BaseとGroveMoE-Inst, 33B-parameter LLMを提案する。
GroveMoEモデルはトークンの複雑さに基づいて3.14-3.28Bパラメータを動的に活性化し、類似またはそれ以上の大きさのSOTAオープンソースモデルに匹敵する性能を達成する。
関連論文リスト
- Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - Mixture of Group Experts for Learning Invariant Representations [25.935653652324532]
わずかに活性化されたMixture-of-Experts (MoE)モデルはトークン当たりの一貫した計算コストを維持しながらパラメータ数を効果的に増加させる。
スパース表現にインスパイアされた上位$kのルーティングによるバニラMOEの新しい視点を示す。
グループエキスパートの混合(Mixture of Group Experts, MOGE)と呼ばれるトップ$kのルーティング入力に対するグループスパース正規化手法を提案する。
論文 参考訳(メタデータ) (2025-04-12T15:58:02Z) - CMoE: Converting Mixture-of-Experts from Dense to Accelerate LLM Inference [33.871080938643566]
CMoEは、高密度言語モデルをトレーニングなしで、ミックス・オブ・エキスパート(MoE)に迅速に変換するフレームワークである。
実験により、75%の活性化比で、パープレキシティの点で顕著な結果が得られることが示された。
パラメータの25%をアクティベートするCMoE構成は、追加のトレーニングなしで使用可能なパープレキシティを保ちながら、エンドツーエンドのレイテンシを1.5倍削減する。
論文 参考訳(メタデータ) (2025-02-06T14:05:30Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - A Closer Look into Mixture-of-Experts in Large Language Models [26.503570706063634]
エクササイズ・オブ・エクササイズ(Mixture-of-experts, MOE)は,その特性と顕著な性能から注目を集めている。
MoEアーキテクチャは計算効率を犠牲にすることなくモデルサイズを増大させることができる。
本稿は,MoEベースの大規模言語モデルの内部動作を理解するための最初の試みである。
論文 参考訳(メタデータ) (2024-06-26T10:07:57Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。