Fugu-MT 論文翻訳(概要): Towards MoE Deployment: Mitigating Inefficiencies in Mixture-of-Expert (MoE) Inference

論文の概要: Towards MoE Deployment: Mitigating Inefficiencies in Mixture-of-Expert (MoE) Inference

arxiv url: http://arxiv.org/abs/2303.06182v2
Date: Sun, 18 Jun 2023 01:33:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-22 03:22:27.631744
Title: Towards MoE Deployment: Mitigating Inefficiencies in Mixture-of-Expert (MoE) Inference
Title（参考訳）: moe展開に向けて:mixing-of-expert(moe)推論の非効率化
Authors: Haiyang Huang, Newsha Ardalani, Anna Sun, Liu Ke, Hsien-Hsin S. Lee, Anjali Sridhar, Shruti Bhosale, Carole-Jean Wu, Benjamin Lee
Abstract要約: 言語モデリング(LM)と機械翻訳(MT)という2つのMoEワークロードの特徴を提供する。本研究では,(1)動的ゲーティング,(2)エキスパートバッファリング,(3)エキスパートロードバランシングの3つの最適化手法を提案する。
参考スコア（独自算出の注目度）: 7.743308058511418
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mixture-of-Experts (MoE) models have gained popularity in achieving state-of-the-art performance in a wide range of tasks in computer vision and natural language processing. They effectively expand the model capacity while incurring a minimal increase in computation cost during training. However, deploying such models for inference is difficult due to their large size and complex communication pattern. In this work, we provide a characterization of two MoE workloads, namely Language Modeling (LM) and Machine Translation (MT) and identify their sources of inefficiencies at deployment. We propose three optimization techniques to mitigate sources of inefficiencies, namely (1) Dynamic gating, (2) Expert Buffering, and (3) Expert load balancing. We show that dynamic gating improves maximum throughput by 6.21-11.23$\times$ for LM, 5.75-10.98$\times$ for MT Encoder and 2.58-5.71$\times$ for MT Decoder. It also reduces memory usage by up to 1.36$\times$ for LM and up to 1.1$\times$ for MT. We further propose Expert Buffering, a new caching mechanism that only keeps hot, active experts in GPU memory while buffering the rest in CPU memory. This reduces static memory allocation by up to 1.47$\times$. We finally propose a load balancing methodology that provides additional scalability to the workload.
Abstract（参考訳）: Mixture-of-Experts (MoE)モデルはコンピュータビジョンと自然言語処理の幅広いタスクにおいて最先端のパフォーマンスを達成するために人気を集めている。トレーニング中の計算コストの最小化を図りながら、モデル容量を効果的に拡大する。しかし,そのようなモデルの導入は,大規模で複雑な通信パターンのため困難である。本稿では,2つのmoeワークロード,すなわち言語モデリング(lm)と機械翻訳(mt)のキャラクタリゼーションを行い,デプロイ時の非効率なソースを特定する。本研究では,(1)動的ゲーティング,(2)エキスパートバッファリング,(3)エキスパートロードバランシングの3つの非効率化手法を提案する。我々は,動的ゲーティングにより最大スループットが6.21-11.23$\times$ for LM, 5.75-10.98$\times$ for MT Encoder, 2.58-5.71$\times$ for MT Decoderを示す。また、LMで最大1.36$\times$、MTで最大1.1$\times$までメモリ使用量を削減します。また、CPUメモリで残りをバッファリングしながら、GPUメモリで熱くアクティブな専門家のみを保持する新しいキャッシングメカニズムであるExpert Bufferingを提案します。これにより、静的メモリ割り当てを最大1.47$\times$まで削減できる。最後に、ワークロードにさらなるスケーラビリティを提供するロードバランシング手法を提案する。

関連論文リスト

Balanced and Elastic End-to-end Training of Dynamic LLMs [3.797598970261636]
大規模分散トレーニングのための動的負荷分散ソリューションDynMoを提案する。静的トレーニング法と比較して、DynMoはトレーニングを最大1.23x(MoEs)、3.18x(pruning)、2.23x(layer frozen)、4.02x(sparse attention)、4.52x(early exit)、1.17x(MoDs)まで加速する。
論文参考訳（メタデータ） (2025-05-20T19:52:57Z)
D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。 D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文参考訳（メタデータ） (2025-04-17T05:37:35Z)
HybriMoE: Hybrid CPU-GPU Scheduling and Cache Management for Efficient MoE Inference [5.015541720729724]
HybriMoEは、CPU-GPUスケジューリングとキャッシュ管理システムによってリソース利用を改善するハイブリッドCPU-GPU推論フレームワークである。我々は、kTransformersフレームワーク上にHybriMoEを実装し、3つの広く使われているMoEベースのLLM上で評価する。
論文参考訳（メタデータ） (2025-04-08T10:47:37Z)
CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation [17.807249890437767]
我々は,CoLAとそのメモリ効率向上実装であるCoLA-Mを紹介する。モデルアクティベーションにおいて広く観測される低ランク構造を利用して、モデルサイズを削減し、モデルのキャパシティを向上し、トレーニング効率を向上させる。 6000万から70億のパラメータを持つLLaMAモデルの実験では、CoLAはコンピューティングコストを$bf 2pmbtimes$で削減し、フルランクレベルのパフォーマンスを維持しながら、トレーニングスループットを$bf 1.86pmbtimes$で改善している。
論文参考訳（メタデータ） (2025-02-16T01:05:16Z)
CalibQuant: 1-Bit KV Cache Quantization for Multimodal LLMs [45.77132019859689]
CalibQuantは、メモリと計算オーバーヘッドの両方を大幅に削減する、視覚的な量子化戦略である。 InternVLモデルのスループットは10倍に向上する。
論文参考訳（メタデータ） (2025-02-15T05:08:01Z)
HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-11-03T04:25:46Z)
Harnessing Your DRAM and SSD for Sustainable and Accessible LLM Inference with Mixed-Precision and Multi-level Caching [35.83447642182576]
大規模言語モデル(LLM)は目覚ましい能力を示している。 LLMの展開は、現在のAIアプリケーションから排出される二酸化炭素の主要な部分である。本稿では,古いハードウェア上でのLCM推論を可能にするモデルモジュール化アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-17T08:33:39Z)
Scalable MatMul-free Language Modeling [9.048532540945086]
MatMul操作は、大きな言語モデルから除外できる。最大2.7BパラメータのモデルでテストされるMatMulフリーモデルは、最先端のトレーニング済みトランスフォーマーに匹敵する。
論文参考訳（メタデータ） (2024-06-04T17:50:34Z)
MoNDE: Mixture of Near-Data Experts for Large-Scale Sparse Models [15.346491299728463]
MoNDEは、$textithot$のエキスパートだけをGPUに転送することで、MoEパラメータの運動量を削減する。 MoNDEは通信効率のよいMoE推論を可能にし、結果としてかなりのスピードアップをもたらす。
論文参考訳（メタデータ） (2024-05-29T07:23:29Z)
PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System [21.09681871279162]
大規模データセットに対するモダン機械学習(ML)トレーニングは、時間を要する作業量である。最適化アルゴリズムであるGradient Descent (SGD) は、その効率性、単純さ、一般化性能に頼っている。プロセッサ中心のアーキテクチャは、MLトレーニングワークロードの実行中に低パフォーマンスと高エネルギー消費に悩まされる。 Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
論文参考訳（メタデータ） (2024-04-10T17:00:04Z)
Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2～4ドル削減することができる。本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文参考訳（メタデータ） (2024-04-08T14:39:49Z)
FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文参考訳（メタデータ） (2024-01-08T17:29:16Z)
SiDA-MoE: Sparsity-Inspired Data-Aware Serving for Efficient and Scalable Large Mixture-of-Experts Models [20.16600129902895]
Mixture-of-Experts (MoE) は、大規模モデルの時代に好意的なアーキテクチャとして登場した。しかし、そのような利点を実現することは、しばしばGPUメモリの有効利用に繋がる。我々は、大規模なMoEモデルに適した効率的な推論手法であるSiDA-MoEを紹介する。
論文参考訳（メタデータ） (2023-10-29T01:08:55Z)
Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。 MoEはクラウドやモバイル環境にデプロイするのは難しい。本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文参考訳（メタデータ） (2022-06-01T07:09:01Z)
Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。 50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2021-09-22T00:57:46Z)
CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文参考訳（メタデータ） (2021-06-20T15:43:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。