論文の概要: Orders in Chaos: Enhancing Large-Scale MoE LLM Serving with Data Movement Forecasting
- arxiv url: http://arxiv.org/abs/2510.05497v1
- Date: Tue, 07 Oct 2025 01:31:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.05662
- Title: Orders in Chaos: Enhancing Large-Scale MoE LLM Serving with Data Movement Forecasting
- Title(参考訳): カオスにおける秩序 - データ移動予測による大規模MoE LLMの実現
- Authors: Zhongkai Yu, Yue Guan, Zihao Yu, Chenyang Zhou, Shuyi Pei, Yangwook Kang, Yufei Ding, Po-An Tsai,
- Abstract要約: 言語モデル(LLM)とMixture of Experts(MoE)アーキテクチャは、優れたパフォーマンス向上を実現している。
彼らのランダムな専門家選択メカニズムは、マルチユニットサービスシステムにおいて主要なボトルネックとなる重要なデータ移動オーバーヘッドをもたらす。
我々は、多種多様なワークロードにまたがる24,000以上のリクエストを使用して、3つの最先端の大規模MoEモデル(200B-671B)にわたる包括的なデータ移動中心のプロファイリングを行う。
- 参考スコア(独自算出の注目度): 7.322061078542974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) with Mixture of Experts (MoE) architectures achieve remarkable performance improvements, but their random expert selection mechanism introduces significant data movement overhead that becomes the dominant bottleneck in multi-unit serving systems. To forecast the patterns underlying this data movement, we conduct comprehensive data-movement-centric profiling across three state-of-the-art large-scale MoE models (200B- 671B) using over 24,000 requests spanning diverse workloads. With the resulting 150GB+ trace files, we perform systematic analysis from both temporal and spatial perspectives and distill six key insights to guide the design of diverse future serving systems. Taking wafer-scale GPUs as a case study, we demonstrate that minor architectural modifications leveraging our insights achieve substantial performance gains, delivering 6.3X and 4.0X average speedups on DeepSeek V3 and Qwen3, respectively. Our work provides the first comprehensive data-centric analysis of MoE models at scale. Our profiling traces and analysis results are publicly available at {https://huggingface.co/datasets/core12345/MoE_expert_selection_trace. We will also release our simulation framework shortly to facilitate future research in this area.
- Abstract(参考訳): 大規模言語モデル (LLM) とMixture of Experts (MoE) アーキテクチャは、優れたパフォーマンス向上を実現するが、そのランダムな専門家選択メカニズムは、マルチユニットサービスシステムにおいて主要なボトルネックとなる、重要なデータ移動オーバーヘッドをもたらす。
データムーブメントの背景にあるパターンを予測するため、さまざまなワークロードにまたがる24,000以上のリクエストを使用して、最先端の3つの大規模MoEモデル(200B-671B)にわたる包括的なデータ移動中心のプロファイリングを行う。
結果として得られた150GB以上のトレースファイルを用いて、時間的・空間的な視点から体系的な解析を行い、6つの重要な洞察を抽出し、様々な未来のサービスシステムの設計を導く。
ウェハスケールのGPUをケーススタディとして、私たちの洞察を活用する小さなアーキテクチャ変更が、DeepSeek V3とQwen3でそれぞれ6.3Xと4.0Xの平均スピードアップを実現していることを示す。
私たちの研究は、大規模なMoEモデルの包括的なデータ中心分析を初めて提供します。
プロファイリングトレースと分析結果は、https://huggingface.co/datasets/core12345/MoE_expert_selection_traceで公開されています。
また、この分野での今後の研究を促進するためのシミュレーションフレームワークも近くリリースします。
関連論文リスト
- Output Scaling: YingLong-Delayed Chain of Thought in a Large Pretrained Time Series Forecasting Model [55.25659103706409]
このフレームワークは,設計した基盤モデルであるYingLongの最先端性能を実現する。
YingLongは、マスク付きトークンリカバリによってトレーニングされた非因果的双方向アテンションエンコーダのみのトランスフォーマーである。
我々は、6Mから3Mパラメータの4つの基礎モデルをリリースし、ゼロショットタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2025-05-20T14:31:06Z) - Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation [67.23953699167274]
自己教師付き学習(SSL)により、地球観測のための視覚基盤モデルの開発が可能になった。
EOでは、この課題は衛星画像に共通する冗長性と重尾分布によって増幅される。
本稿では,データセットの多様性とバランスを最大化し,SSL事前トレーニングを改善するために設計された動的データセットプルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-09T15:13:26Z) - SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation [83.18930314027254]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
本研究では,VT-Huge をバックボーンとする第1次一般基礎モデル (SMPLer-X) に向けた EHPS のスケールアップについて検討する。
ビッグデータと大規模モデルにより、SMPLer-Xは、さまざまなテストベンチマークにまたがる強力なパフォーマンスと、目に見えない環境への優れた転送性を示す。
論文 参考訳(メタデータ) (2023-09-29T17:58:06Z) - FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via
Dynamic Device Placement [19.639936387834677]
Mixture-of-Experts (MoEs) は、様々なダウンストリームタスクにおいて、優れた事前トレーニングのスケーラビリティを示している。
MoEはデータライフサイクルにおける新たなデータ分析パラダイムになりつつある。
本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。
論文 参考訳(メタデータ) (2023-04-08T07:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。