Fugu-MT 論文翻訳(概要): fMoE: Fine-Grained Expert Offloading for Large Mixture-of-Experts Serving

論文の概要: fMoE: Fine-Grained Expert Offloading for Large Mixture-of-Experts Serving

arxiv url: http://arxiv.org/abs/2502.05370v1
Date: Fri, 07 Feb 2025 22:51:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:49.447982
Title: fMoE: Fine-Grained Expert Offloading for Large Mixture-of-Experts Serving
Title（参考訳）: fMoE: エクササイズを多用したエキスパートのオフロード
Authors: Hanfei Yu, Xingqi Cui, Hong Zhang, Hao Wang, Hao Wang,
Abstract要約: fMoEは、MoEサービスのためのきめ細かい専門家のオフロードシステムである。我々はfMoEが推論遅延を47%削減し、最先端ソリューションよりも専門家のヒット率を36%向上することを示した。
参考スコア（独自算出の注目度）: 9.956997242640728
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have gained immense success in revolutionizing various applications, including content generation, search and recommendation, and AI-assisted operation. To reduce high training costs, Mixture-of-Experts (MoE) architecture has become a popular backbone for modern LLMs. However, despite the benefits, serving MoE-based LLMs experience severe memory inefficiency due to sparsely activated experts. Recent studies propose to offload inactive experts from GPU memory to CPU memory to improve the serving efficiency of MoE models. However, they either incur high inference latency or high model memory footprints due to coarse-grained designs. To tame the latency-memory trade-off in MoE serving, we present fMoE, a fine-grained expert offloading system for MoE serving that achieves low inference latency with memory efficiency. We design fMoE to extract fine-grained expert selection patterns from MoE models and semantic hints from input prompts to efficiently guide expert prefetching, caching, and offloading decisions. fMoE is prototyped on top of HuggingFace Transformers and deployed on a six-GPU testbed. Experiments with open-source MoE models and real-world workloads show that fMoE reduces inference latency by 47% and improves expert hit rate by 36% over state-of-the-art solutions.
Abstract（参考訳）: 大規模言語モデル(LLM)は、コンテンツ生成、検索とレコメンデーション、AI支援操作など、さまざまなアプリケーションに革命をもたらした。トレーニングコストを下げるため、Mixture-of-Experts (MoE)アーキテクチャは現代のLLMのバックボーンとして人気がある。しかし、その利点にもかかわらず、MoEベースのLLMは、わずかに活性化された専門家のために、メモリ不足を経験する。近年の研究では、GPUメモリからCPUメモリに非アクティブなエキスパートをオフロードし、MoEモデルのサービス効率を改善することが提案されている。しかし、粗い設計のため、高い推論遅延や高モデルメモリフットプリントが発生する。本報告では、MoEサービスにおける遅延メモリのトレードオフを緩和するため、メモリ効率の低い推論レイテンシを実現する、MoEサービスのための詳細な専門家オフロードシステムであるfMoEを紹介する。我々は、fMoEを設計し、MoEモデルからきめ細かい専門家選択パターンと入力プロンプトから意味ヒントを抽出し、専門家のプリフェッチ、キャッシュ、オフロード決定を効率的にガイドする。 fMoEはHuggingFace Transformer上でプロトタイプされ、6つのGPUテストベッドにデプロイされる。オープンソースのMoEモデルと実世界のワークロードによる実験によると、fMoEは推論遅延を47%削減し、最先端のソリューションよりも専門家のヒット率を36%改善している。

関連論文リスト

Mixture of Lookup Experts [63.787712153454464]
Mixture-of-Experts (MoE)は、推論中に専門家のサブセットだけを起動する。 MoLEは通信とVRAMの両方で効率的な新しいMoEアーキテクチャである。
論文参考訳（メタデータ） (2025-03-20T02:31:57Z)
ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。 ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文参考訳（メタデータ） (2025-03-10T03:15:54Z)
eMoE: Task-aware Memory Efficient Mixture-of-Experts-Based (MoE) Model Inference [6.642099288463585]
大規模言語モデル(LLM)のためのメモリ効率の良い推論システムeMoEを提案する。 eMoEは、専門家ルーティングの繰り返しパターンに基づいて、必要な専門家のみを予測およびロードすることで、メモリ使用量を削減する。また、処理のプロンプトが40倍長くなり、バッチが4.5倍大きくなり、スループットが1.5倍向上する。
論文参考訳（メタデータ） (2025-03-10T01:11:52Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-11-03T04:25:46Z)
Mixture of A Million Experts [1.240096657086732]
本稿では,多彩な専門家プールからのスパース検索に製品キー技術を利用する新しい層設計PEERを紹介する。言語モデリングタスクの実験では、PEER層が高密度FFWや粗粒のMoEよりもパフォーマンス・計算トレードオフの点で優れていることが示された。
論文参考訳（メタデータ） (2024-07-04T20:59:20Z)
Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文参考訳（メタデータ） (2024-02-22T18:56:07Z)
MoE-Infinity: Offloading-Efficient MoE Model Serving [15.826989637041907]
MoE-Infinity(モエ・インフィニティ)は、Sparse Mixed-of-Experts(MoE)モデルのためのオフロード効率の高いサービスシステムである。オフロードを最適化するために、MoE-Infinityはエキスパートアクティベーションのための新しい要求レベルのトレースを実現する。 MoE-Infinityはより優れたレイテンシ性能を示し、様々なMoEモデルを提供する際に2-20倍の改善を提供する。
論文参考訳（メタデータ） (2024-01-25T18:07:50Z)
Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference [23.207326766883405]
Mixture-of-Experts (MoE)は、計算要求を比例的にスケールアップすることなく、モデルサイズをスケールすることができる。プレゲートMOEは、スパース専門家活性化の動的性質を緩和する新しいプレゲート機能を用いている。我々は、Pre-gated MoEが、同じレベルのモデル品質を維持しながら、パフォーマンスを改善し、GPUメモリ消費を減らすことを実証した。
論文参考訳（メタデータ） (2023-08-23T11:25:37Z)
Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。 MoEはクラウドやモバイル環境にデプロイするのは難しい。本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文参考訳（メタデータ） (2022-06-01T07:09:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。