論文の概要: SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations
- arxiv url: http://arxiv.org/abs/2512.14080v1
- Date: Tue, 16 Dec 2025 04:39:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.587371
- Title: SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations
- Title(参考訳): SonicMoE: IOとTile-aware最適化によるMoEの高速化
- Authors: Wentao Guo, Mayank Mishra, Xinle Cheng, Ion Stoica, Tri Dao,
- Abstract要約: 混合エキスパートモデル(MoE)は、計算コストを大幅に増加させることなく、言語モデルをスケールアップするためのデファクトアーキテクチャとして登場した。
最小のアクティベーションキャッシングでMoEの前後パスを計算するメモリ効率のアルゴリズムを提案する。
また,グループ化されたGEMMカーネルのパディングによる無駄計算を最小限に抑える新しい「トークンラウンドリング」手法を提案する。
- 参考スコア(独自算出の注目度): 54.303301888915406
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Mixture of Experts (MoE) models have emerged as the de facto architecture for scaling up language models without significantly increasing the computational cost. Recent MoE models demonstrate a clear trend towards high expert granularity (smaller expert intermediate dimension) and higher sparsity (constant number of activated experts with higher number of total experts), which improve model quality per FLOP. However, fine-grained MoEs suffer from increased activation memory footprint and reduced hardware efficiency due to higher IO costs, while sparser MoEs suffer from wasted computations due to padding in Grouped GEMM kernels. In response, we propose a memory-efficient algorithm to compute the forward and backward passes of MoEs with minimal activation caching for the backward pass. We also design GPU kernels that overlap memory IO with computation benefiting all MoE architectures. Finally, we propose a novel "token rounding" method that minimizes the wasted compute due to padding in Grouped GEMM kernels. As a result, our method SonicMoE reduces activation memory by 45% and achieves a 1.86x compute throughput improvement on Hopper GPUs compared to ScatterMoE's BF16 MoE kernel for a fine-grained 7B MoE. Concretely, SonicMoE on 64 H100s achieves a training throughput of 213 billion tokens per day comparable to ScatterMoE's 225 billion tokens per day on 96 H100s for a 7B MoE model training with FSDP-2 using the lm-engine codebase. Under high MoE sparsity settings, our tile-aware token rounding algorithm yields an additional 1.16x speedup on kernel execution time compared to vanilla top-$K$ routing while maintaining similar downstream performance. We open-source all our kernels to enable faster MoE model training.
- Abstract(参考訳): 混合エキスパートモデル(MoE)は、計算コストを大幅に増加させることなく、言語モデルをスケールアップするためのデファクトアーキテクチャとして登場した。
最近のMoEモデルは、FLOPあたりのモデル品質を改善するために、高い専門家の粒度(より小さい専門家の中間次元)と高い空間性(アクティブな専門家の数と高い専門家の数)への明確な傾向を示す。
しかし、粒度の細かいMoEは、活性化メモリフットプリントの増大とIOコストの上昇によるハードウェア効率の低下に悩まされ、スペーサーMoEは、 Grouped GEMMカーネルのパディングによる無駄な計算に悩まされる。
そこで本研究では,後方パスに対する最小のアクティベーションキャッシングで,MoEの前後パスを計算するメモリ効率のアルゴリズムを提案する。
また、メモリIOに重なるGPUカーネルを設計し、すべてのMoEアーキテクチャの計算に役立ちます。
最後に,グループ化されたGEMMカーネルのパディングによる無駄計算を最小限に抑える新しい「トークンラウンドリング」手法を提案する。
その結果,SonicMoEは,ScatterMoEのBF16 MoEカーネルと比較して,活性化メモリを45%削減し,Hopper GPUの1.86倍のスループット向上を実現した。
具体的には、64 H100s上のSonicMoEは、lm-engineコードベースを使用してFSDP-2で7B MoEモデルをトレーニングするために、96 H100s上でScatterMoEの225億トークンに匹敵する1日当たり213億トークンのトレーニングスループットを達成している。
高MoE間隔設定の下では、タイル対応のトークンラウンドリングアルゴリズムは、同じダウンストリーム性能を維持しながら、バニラトップのK$ルーティングと比較して、カーネルの実行時間で1.16倍のスピードアップを得られる。
より高速なMoEモデルトレーニングを可能にするために、すべてのカーネルをオープンソースにしています。
関連論文リスト
- BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity [66.94629945519125]
我々は、新しいMoEアーキテクチャであるBlockFFNと、その効率的なトレーニングとデプロイメント技術を紹介します。
具体的には、ReLUアクティベーションとRMSNormを統合したルータを、微分可能かつ柔軟なルーティングに使用します。
次に、トークンレベルのスペーサ(TLS)とチャンクレベルのスペーサ(CLS)の両方を促進するために、CLS対応のトレーニング目標を設計し、BlockFFNをより加速しやすいものにした。
論文 参考訳(メタデータ) (2025-07-11T17:28:56Z) - FlashMoE: Fast Distributed MoE in a Single Kernel [1.866526462692252]
FlashMoEは、専門家の計算とGPU間通信を単一の永続GPUカーネルに融合する、完全にGPU対応のMoE演算子である。
我々は、FlashMoEがGPU利用率を最大9倍、レイテンシを6倍、スループットを5.7倍、オーバーラップ効率を最先端のベースラインに比べて4倍向上することを示した。
論文 参考訳(メタデータ) (2025-06-05T06:29:14Z) - MoE-Gen: High-Throughput MoE Inference on a Single GPU with Module-Based Batching [2.543762777822215]
MoE-GenはシングルGPU実行のための高速なMoE推論システムである。
モジュールベースのトークンを導入し、ホストメモリに蓄積し、大きなバッチを動的に起動して利用を最大化する。
MoE-Genは最先端システムに比べて8-31倍高いスループットを実現している。
論文 参考訳(メタデータ) (2025-03-12T18:08:01Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Revisiting MoE and Dense Speed-Accuracy Comparisons for LLM Training [45.97480866595295]
Mixture-of-Experts (MoE)は、計算コストを一定に保ちながら、モデルキャパシティを増大させることにより、パフォーマンスの向上を享受する。
我々は高密度から高密度までのステップタイムを健全な範囲で増加させる3Dシャーディング法を採用した。
論文 参考訳(メタデータ) (2024-05-23T21:00:53Z) - Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2~4ドル削減することができる。
本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-08T14:39:49Z) - MegaBlocks: Efficient Sparse Training with Mixture-of-Experts [19.541303844245835]
MegaBlocksはGPU上でのMixture-of-Experts(MoE)トレーニングを効率的に行うシステムである。
ブロックスパース演算の観点からMoEを再構成し,新しいブロックスパースGPUカーネルを開発する。
当社のアプローチではトークンやマップを現代的なハードウェアに効率的にドロップすることはなく、MoEよりも最大40%のエンドツーエンドのトレーニングスピードアップを実現しています。
論文 参考訳(メタデータ) (2022-11-29T00:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。