論文の概要: MoE-CAP: Benchmarking Cost, Accuracy and Performance of Sparse Mixture-of-Experts Systems
- arxiv url: http://arxiv.org/abs/2505.11415v2
- Date: Wed, 21 May 2025 13:20:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.311009
- Title: MoE-CAP: Benchmarking Cost, Accuracy and Performance of Sparse Mixture-of-Experts Systems
- Title(参考訳): MoE-CAP:Sparse Mixture-of-Expertsシステムのベンチマークコスト、精度、性能
- Authors: Yinsicheng Jiang, Yao Fu, Yeqi Huang, Ping Nie, Zhan Lu, Leyang Xue, Congjie He, Man-Kit Sit, Jilong Xue, Li Dong, Ziming Miao, Dayou Du, Tairan Xu, Kai Zou, Edoardo Ponti, Luo Mai,
- Abstract要約: MoEアーキテクチャは、LLM(Large Language Models)を効率的にスケーリングするためにますます好まれている。
既存のベンチマークは、これらのトレードオフを正確に捉えることができないことが多い。
我々は,MoEシステム用に特別に設計されたベンチマークであるMoE-CAPを紹介する。
- 参考スコア(独自算出の注目度): 25.47183452671666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The sparse Mixture-of-Experts (MoE) architecture is increasingly favored for scaling Large Language Models (LLMs) efficiently, but it depends on heterogeneous compute and memory resources. These factors jointly affect system Cost, Accuracy, and Performance (CAP), making trade-offs inevitable. Existing benchmarks often fail to capture these trade-offs accurately, complicating practical deployment decisions. To address this, we introduce MoE-CAP, a benchmark specifically designed for MoE systems. Our analysis reveals that achieving an optimal balance across CAP is difficult with current hardware; MoE systems typically optimize two of the three dimensions at the expense of the third-a dynamic we term the MoE-CAP trade-off. To visualize this, we propose the CAP Radar Diagram. We further introduce sparsity-aware performance metrics-Sparse Memory Bandwidth Utilization (S-MBU) and Sparse Model FLOPS Utilization (S-MFU)-to enable accurate performance benchmarking of MoE systems across diverse hardware platforms and deployment scenarios.
- Abstract(参考訳): スパース・ミックス・オブ・エクササイズ(MoE)アーキテクチャは、LLM(Large Language Models)を効率的にスケールするのにますます好まれるが、不均一な計算とメモリリソースに依存している。
これらの要因はシステムコスト、正確性、パフォーマンス(CAP)に共同で影響し、トレードオフは避けられないものになります。
既存のベンチマークは、これらのトレードオフを正確に捉えることができず、実際のデプロイメント決定を複雑にします。
そこで本研究では,MoEシステムに特化して設計されたベンチマークであるMoE-CAPを紹介する。
MoEシステムは一般的に3次元のうち2次元を最適化するが、これはMoE-CAPトレードオフ(英語版)と呼ばれる3次元のダイナミックなトレードオフを犠牲にしている。
これを可視化するために、CAPレーダダイアグラムを提案する。
さらに、多様なハードウェアプラットフォームやデプロイメントシナリオにわたるMoEシステムの正確なパフォーマンスベンチマークを可能にするために、スパースメモリ帯域利用(S-MBU)とスパースモデルFLOPS利用(S-MFU)を導入する。
関連論文リスト
- COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs [81.01082659623552]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。
それらの最適化は、彼らが居住している複雑で高次元のロスランドスケープのために重要な課題である。
論文 参考訳(メタデータ) (2025-02-24T18:42:19Z) - Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。
本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文 参考訳(メタデータ) (2025-01-08T11:37:06Z) - MoE-CAP: Benchmarking Cost, Accuracy and Performance of Sparse Mixture-of-Experts Systems [26.493762260392284]
MoE-CAPはスパースMoEシステムを評価するためのベンチマーク手法である。
主なイノベーションは、コスト、パフォーマンス、精度のメトリクスを単一のダイアグラムに統合した、疎結合対応のCAP分析モデルである。
論文 参考訳(メタデータ) (2024-12-10T00:19:28Z) - GUIDE: A Global Unified Inference Engine for Deploying Large Language Models in Heterogeneous Environments [1.0558515062670693]
現実世界のシナリオにおける大規模言語モデル(LLM)は依然として重要な課題である。
これらの課題は、しばしばメモリ使用率、レイテンシ、スループットの非効率につながる。
バッチレイテンシ、TTFT、デコードスループットといった主要なメトリクスに対して、予測エラーを9.9%から42.3%の精度で達成し、これらの問題に対処するフレームワークを開発する。
論文 参考訳(メタデータ) (2024-12-06T05:46:43Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。