論文の概要: MoE-Inference-Bench: Performance Evaluation of Mixture of Expert Large Language and Vision Models
- arxiv url: http://arxiv.org/abs/2508.17467v1
- Date: Sun, 24 Aug 2025 17:49:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.541009
- Title: MoE-Inference-Bench: Performance Evaluation of Mixture of Expert Large Language and Vision Models
- Title(参考訳): MoE-Inference-Bench:エキスパート大言語と視覚モデルの混合性能評価
- Authors: Krishna Teja Chitty-Venkata, Sylvia Howland, Golara Azar, Daria Soboleva, Natalia Vassilieva, Siddhisanket Raskar, Murali Emani, Venkatram Vishwanath,
- Abstract要約: 専門家の混合モデル(MoE)は、大規模言語モデル(LLM)と視覚言語モデル(VLM)のスケーリングを可能にした。
MoEsは、専門家間の負荷不均衡や、追加のルーティング計算オーバーヘッドなど、いくつかの推論時の課題を導入している。
MoE-Inference-Benchは様々なシナリオでMoEの性能を評価するための総合的な研究である。
- 参考スコア(独自算出の注目度): 3.2294536938139213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture of Experts (MoE) models have enabled the scaling of Large Language Models (LLMs) and Vision Language Models (VLMs) by achieving massive parameter counts while maintaining computational efficiency. However, MoEs introduce several inference-time challenges, including load imbalance across experts and the additional routing computational overhead. To address these challenges and fully harness the benefits of MoE, a systematic evaluation of hardware acceleration techniques is essential. We present MoE-Inference-Bench, a comprehensive study to evaluate MoE performance across diverse scenarios. We analyze the impact of batch size, sequence length, and critical MoE hyperparameters such as FFN dimensions and number of experts on throughput. We evaluate several optimization techniques on Nvidia H100 GPUs, including pruning, Fused MoE operations, speculative decoding, quantization, and various parallelization strategies. Our evaluation includes MoEs from the Mixtral, DeepSeek, OLMoE and Qwen families. The results reveal performance differences across configurations and provide insights for the efficient deployment of MoEs.
- Abstract(参考訳): 大規模言語モデル(LLM)と視覚言語モデル(VLM)のスケーリングを可能にし、計算効率を維持しながら膨大なパラメータ数を達成している。
しかし、MoEsは専門家間の負荷不均衡や、追加のルーティング計算オーバーヘッドなど、いくつかの推論時の課題を導入している。
これらの課題に対処し、MoEの利点を完全に活用するためには、ハードウェアアクセラレーション技術の体系的な評価が不可欠である。
MoE-Inference-Benchは様々なシナリオでMoEの性能を評価するための総合的な研究である。
我々は,バッチサイズ,シーケンス長,FFN次元やスループットの専門家数といった臨界MoEハイパーパラメータの影響を分析した。
我々は、プルーニング、フューズされたMoE演算、投機的復号化、量子化、および様々な並列化戦略を含む、Nvidia H100 GPU上でのいくつかの最適化手法を評価する。
評価対象は,Mixtral,DeepSeek,OLMoE,QwenファミリーのMoEである。
結果は、構成間でのパフォーマンスの違いを明らかにし、MoEを効率的にデプロイするための洞察を提供する。
関連論文リスト
- Mixture of Experts in Large Language Models [3.1494372222592224]
MoEアーキテクチャは、最小の計算オーバーヘッドを維持しながら、モデルパフォーマンスを大幅に向上させる。
本分析では,モデルキャパシティの向上,タスク固有性能の向上,モデルキャパシティの効率向上など,MoEの重要なメリットを明らかにした。
このレビューでは、現在の研究の制限、オープンな課題、将来的な方向性について概説し、MoEアーキテクチャとそのアプリケーションにおける継続的なイノベーションの基礎を提供する。
論文 参考訳(メタデータ) (2025-07-15T10:36:43Z) - Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。
本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。
主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文 参考訳(メタデータ) (2025-05-07T15:46:36Z) - MoLAE: Mixture of Latent Experts for Parameter-Efficient Language Models [10.623996218106564]
Mixture of Experts (MoE)は、Large Language Models (LLM)を効率的にスケーリングするための重要なアーキテクチャパラダイムとなっている。
我々は、共有射影を通して専門家の操作を低次元の潜在空間に変換する新しいパラメータ化であるMoLAEを導入し、それに続いて専門家固有の変換を行う。
モデル性能を保ちながら,MoLAEは複数の次元にわたる効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-03-29T14:35:34Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Dynamic Mixture of Experts: An Auto-Tuning Approach for Efficient Transformer Models [33.834215393960605]
本稿では,DynMoE(Dynamic Mixture of Experts)技術を紹介する。
DynMoEには、各トークンがアクティベートする専門家の数を自動的に決定できる新しいゲーティングメソッドが組み込まれている。
視覚・言語タスクのGMoEと視覚言語タスクのMoE-LLaVAとの競合性能を比較検討した。
論文 参考訳(メタデータ) (2024-05-23T08:18:30Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。