論文の概要: PreMoe: Lightening MoEs on Constrained Memory by Expert Pruning and Retrieval
- arxiv url: http://arxiv.org/abs/2505.17639v1
- Date: Fri, 23 May 2025 08:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.940856
- Title: PreMoe: Lightening MoEs on Constrained Memory by Expert Pruning and Retrieval
- Title(参考訳): PreMoe: エキスパートプルーニングと検索による制約メモリの軽量化
- Authors: Zehua Pei, Ying Zhang, Hui-Ling Zhen, Xianzhi Yu, Wulong Liu, Sinno Jialin Pan, Mingxuan Yuan, Bei Yu,
- Abstract要約: Mixture-of-experts (MoE) アーキテクチャにより、計算コストの比例的な増加を伴わずに、大規模言語モデル(LLM)を膨大なパラメータ数に拡張することができる。
しかし、大規模なMoEモデルの重要なメモリ需要は、様々な計算環境への展開を妨げる。
メモリに制約のある環境において,大規模MOEモデルの効率的な展開を可能にする新しいフレームワークであるPreMoeを紹介する。
- 参考スコア(独自算出の注目度): 36.9586523272496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-experts (MoE) architectures enable scaling large language models (LLMs) to vast parameter counts without a proportional rise in computational costs. However, the significant memory demands of large MoE models hinder their deployment across various computational environments, from cloud servers to consumer devices. This study first demonstrates pronounced task-specific specialization in expert activation patterns within MoE layers. Building on this, we introduce PreMoe, a novel framework that enables efficient deployment of massive MoE models in memory-constrained environments. PreMoe features two main components: probabilistic expert pruning (PEP) and task-adaptive expert retrieval (TAER). PEP employs a new metric, the task-conditioned expected selection score (TCESS), derived from router logits to quantify expert importance for specific tasks, thereby identifying a minimal set of critical experts. TAER leverages these task-specific expert importance profiles for efficient inference. It pre-computes and stores compact expert patterns for diverse tasks. When a user query is received, TAER rapidly identifies the most relevant stored task pattern and reconstructs the model by loading only the small subset of experts crucial for that task. This approach dramatically reduces the memory footprint across all deployment scenarios. DeepSeek-R1 671B maintains 97.2\% accuracy on MATH500 when pruned to 8/128 configuration (50\% expert reduction), and still achieves 72.0\% with aggressive 8/32 pruning (87.5\% expert reduction). Pangu-Ultra-MoE 718B achieves 97.15\% on MATH500 and 81.3\% on AIME24 with 8/128 pruning, while even more aggressive pruning to 4/64 (390GB memory) preserves 96.95\% accuracy on MATH500. We make our code publicly available at https://github.com/JarvisPei/PreMoe.
- Abstract(参考訳): Mixture-of-experts (MoE) アーキテクチャにより、計算コストの比例的な増加を伴わずに、大規模言語モデル(LLM)を膨大なパラメータ数に拡張することができる。
しかし、大規模なMoEモデルの重要なメモリ需要は、クラウドサーバからコンシューマデバイスに至るまで、さまざまな計算環境への展開を妨げる。
本研究は、まず、MoE層内の専門家アクティベーションパターンにおけるタスク固有の特殊化を示す。
この上に構築されたPreMoeは,メモリ制約環境における大規模MoEモデルの効率的な展開を可能にする新しいフレームワークである。
PreMoeには、確率的エキスパートプルーニング(PEP)とタスク適応的エキスパート検索(TAER)の2つの主要なコンポーネントがある。
PEPは、ルータログから派生したタスク条件付き予測選択スコア(TCESS)という新しいメトリックを使用して、特定のタスクに対する専門家の重要度を定量化し、最小限のクリティカルエキスパートを識別する。
TAERはこれらのタスク固有の専門的重要プロファイルを利用して効率的な推論を行う。
様々なタスクのために、コンパクトなエキスパートパターンをプリコンプリートし、保存する。
ユーザクエリが受信されると、TAERは最も関連性の高いタスクパターンを迅速に識別し、そのタスクに不可欠な専門家の小さなサブセットだけをロードすることでモデルを再構築する。
このアプローチは、すべてのデプロイメントシナリオにおけるメモリフットプリントを大幅に削減します。
DeepSeek-R1 671Bは8/128構成(50\%の専門家削減)でMATH500の97.2\%の精度を維持し、攻撃的な8/32プルーニング(87.5\%専門家削減)で72.0\%を達成している。
Pangu-Ultra-MoE 718B は MATH500 で 97.15 %、AIME24 で 8/128 プルーニングで 81.3 %、さらに攻撃的な 4/64 (390GB メモリ) のプルーニングは MATH500 で 96.95 % の精度を保っている。
コードをhttps://github.com/JarvisPei/PreMoe.comで公開しています。
関連論文リスト
- eMoE: Task-aware Memory Efficient Mixture-of-Experts-Based (MoE) Model Inference [6.642099288463585]
大規模言語モデル(LLM)のためのメモリ効率の良い推論システムeMoEを提案する。
eMoEは、専門家ルーティングの繰り返しパターンに基づいて、必要な専門家のみを予測およびロードすることで、メモリ使用量を削減する。
また、処理のプロンプトが40倍長くなり、バッチが4.5倍大きくなり、スループットが1.5倍向上する。
論文 参考訳(メタデータ) (2025-03-10T01:11:52Z) - Efficient Expert Pruning for Sparse Mixture-of-Experts Language Models: Enhancing Performance and Reducing Inference Costs [30.07344792770254]
我々は,SMoEモデルのエキスパートの育成を促進するため,EEP(Efficient Expert Pruning)と呼ばれる勾配のない進化戦略を導入する。
EEPは、ダウンストリームタスクのパフォーマンスを維持したり改善したりしながら、モデル推論(すなわち、勾配計算をしない)とより大きな疎性にのみ依存する。
実験の結果,Mixtral 8times7$B-Instructのエキスパートの75%が,性能損失を最小限に抑えたパラメータの大幅な削減を達成できた。
論文 参考訳(メタデータ) (2024-07-01T03:57:35Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。