Fugu-MT 論文翻訳(概要): Condense, Don't Just Prune: Enhancing Efficiency and Performance in MoE Layer Pruning

論文の概要: Condense, Don't Just Prune: Enhancing Efficiency and Performance in MoE Layer Pruning

arxiv url: http://arxiv.org/abs/2412.00069v1
Date: Tue, 26 Nov 2024 00:56:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:21.32953
Title: Condense, Don't Just Prune: Enhancing Efficiency and Performance in MoE Layer Pruning
Title（参考訳）: Condense, Don't just Prune: MoEレイヤのプルーニングにおける効率性とパフォーマンス向上
Authors: Mingyu Cao, Gen Li, Jie Ji, Jiaqi Zhang, Xiaolong Ma, Shiwei Liu, Lu Yin,
Abstract要約: 本論文では,CD-MoE (Condense-MoE) とCD-MoE (Condense-MoE) について述べる。フィードフォワードネットワークは多くの小さな専門家に分割されており、特定の専門家は、常にアクティブになっている共有専門家として機能するように分離されています。
参考スコア（独自算出の注目度）: 26.945473092961123
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mixture-of-Experts (MOE) has garnered significant attention for their ability to scale up neural networks while utilizing the same or even fewer active parameters. However, MoE does not relieve the massive memory requirements of networks, which limits their practicality in real-world applications, especially in the era of large language models (LLMs). While recent work explores the possibility of removing entire layers of MoE to reduce memory, the performance degradation is still notable. In this paper, we propose Condense-MoE (CD-MoE} that, instead of dropping the entire MoE layer, condenses the big, sparse MoE layer into a small but dense layer with only a few experts that are activated for all tokens. Our approach is specifically designed for fine-grained MoE with shared experts, where Feed-Forward Networks are split into many small experts, with certain experts isolated to serve as shared experts that are always activated. We demonstrate the effectiveness of our method across multiple MoE models such as DeepSeekMoE and QwenMoE on various benchmarks. Specifically, for the DeepSeekMoE-16B model, our approach maintains nearly 90% of the average accuracy while reducing memory usage by 30% and enhancing inference speed by 30%. Moreover, we show that with lightweight expert fine-tuning, the pruned model can achieve further improvements on specific tasks. Our code are available at https://github.com/duterscmy/CD-MoE/tree/main.
Abstract（参考訳）: Mixture-of-Experts(MOE)は、同じあるいはより少ないアクティブパラメータを使用しながら、ニューラルネットワークのスケールアップ能力に大きな注目を集めている。しかし、MoEは、特に大規模言語モデル(LLM)の時代において、実世界のアプリケーションにおける実用性を制限するネットワークの膨大なメモリ要件を緩和しない。最近の研究は、メモリ削減のためにMoEの全レイヤを削除する可能性を探っているが、パフォーマンス劣化は注目すべきである。本稿では,CD-MoE(Condense-MoE)を提案する。この手法は,MoE層全体を落下させる代わりに,すべてのトークンに対して活性化される少数の専門家しかいない,小さくて密度の高いMoE層に凝縮する。フィードフォワードネットワークは多くの小さな専門家に分割されており、特定の専門家は、常にアクティブになっている共有専門家として機能するように分離されています。本稿では,DeepSeekMoE や QwenMoE など複数の MoE モデルに対して,様々なベンチマークで提案手法の有効性を示す。具体的には、DeepSeekMoE-16Bモデルでは、平均精度の90%近くを維持しながら、メモリ使用量を30%削減し、推論速度を30%向上させる。さらに, 軽量な専門家による微調整により, プルーンドモデルにより, 特定のタスクのさらなる改善が達成できることを示す。私たちのコードはhttps://github.com/duterscmy/CD-MoE/tree/main.comで利用可能です。

関連論文リスト

SlimMoE: Structured Compression of Large MoE Models via Expert Slimming and Distillation [82.53411922988039]
SlimMoEは、大規模なMoEモデルをより小さく効率的な変種に変換するための多段階圧縮フレームワークである。このフレームワークを用いて、Phi 3.5-MoE (41.9Bトータル/6.6Bアクティベートパラメータ)を圧縮し、Phi-mini-MoE (7.6Bトータル/2.4Bアクティベートパラメータ)とPhi-tiny-MoE (3.8Bトータル/1.1Bアクティベートパラメータ)を生成する。実験により、圧縮されたモデルが他のモデルと同等の大きさのモデルよりも優れ、より大きなモデルと競合し続けていることが示された。
論文参考訳（メタデータ） (2025-06-23T07:15:59Z)
Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models [35.617468386609254]
Mixture-of-Experts (MoE) は、推論中に専門家がわずかに活性化された大きな言語モデルの効率的なスケーリングを可能にする。多くのシステムでは,専門家のサブセットを高速メモリにキャッシュする*専門家オフロード*を導入している。各層にMoEを適用し、共有専門家を使用しないモデルは、最も高い局所的なルーティング一貫性を示す。
論文参考訳（メタデータ） (2025-05-21T22:13:09Z)
Mixture of Lookup Experts [63.787712153454464]
Mixture-of-Experts (MoE)は、推論中に専門家のサブセットだけを起動する。 MoLEは通信とVRAMの両方で効率的な新しいMoEアーキテクチャである。
論文参考訳（メタデータ） (2025-03-20T02:31:57Z)
ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。 ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文参考訳（メタデータ） (2025-03-10T03:15:54Z)
eMoE: Task-aware Memory Efficient Mixture-of-Experts-Based (MoE) Model Inference [6.642099288463585]
大規模言語モデル(LLM)のためのメモリ効率の良い推論システムeMoEを提案する。 eMoEは、専門家ルーティングの繰り返しパターンに基づいて、必要な専門家のみを予測およびロードすることで、メモリ使用量を削減する。また、処理のプロンプトが40倍長くなり、バッチが4.5倍大きくなり、スループットが1.5倍向上する。
論文参考訳（メタデータ） (2025-03-10T01:11:52Z)
fMoE: Fine-Grained Expert Offloading for Large Mixture-of-Experts Serving [9.956997242640728]
fMoEは、MoEサービスのためのきめ細かい専門家のオフロードシステムである。我々はfMoEが推論遅延を47%削減し、最先端ソリューションよりも専門家のヒット率を36%向上することを示した。
論文参考訳（メタデータ） (2025-02-07T22:51:17Z)
HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-11-03T04:25:46Z)
MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。 MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文参考訳（メタデータ） (2024-10-09T18:01:27Z)
A Closer Look into Mixture-of-Experts in Large Language Models [26.503570706063634]
エクササイズ・オブ・エクササイズ(Mixture-of-experts, MOE)は,その特性と顕著な性能から注目を集めている。 MoEアーキテクチャは計算効率を犠牲にすることなくモデルサイズを増大させることができる。本稿は,MoEベースの大規模言語モデルの内部動作を理解するための最初の試みである。
論文参考訳（メタデータ） (2024-06-26T10:07:57Z)
A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文参考訳（メタデータ） (2024-05-26T17:52:58Z)
MoE-Infinity: Offloading-Efficient MoE Model Serving [15.826989637041907]
MoE-Infinity(モエ・インフィニティ)は、Sparse Mixed-of-Experts(MoE)モデルのためのオフロード効率の高いサービスシステムである。オフロードを最適化するために、MoE-Infinityはエキスパートアクティベーションのための新しい要求レベルのトレースを実現する。 MoE-Infinityはより優れたレイテンシ性能を示し、様々なMoEモデルを提供する際に2-20倍の改善を提供する。
論文参考訳（メタデータ） (2024-01-25T18:07:50Z)
Mixture of Quantized Experts (MoQE): Complementary Effect of Low-bit Quantization and Robustness [10.196942053244468]
大規模なMixture of Experts (MoE)モデルは、様々な言語タスクで最先端の品質を達成することができる。 MoQEは、超低ビットから2ビットまでの量子化を専門家の重みのみに適用する単純な重みのみの量子化法である。低ビット量子化とMoEアーキテクチャは信頼性の高いモデル性能を提供することを示す。
論文参考訳（メタデータ） (2023-10-03T20:11:23Z)
Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。 MoEはクラウドやモバイル環境にデプロイするのは難しい。本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文参考訳（メタデータ） (2022-06-01T07:09:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。