Fugu-MT 論文翻訳(概要): SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations

論文の概要: SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations

arxiv url: http://arxiv.org/abs/2512.14080v1
Date: Tue, 16 Dec 2025 04:39:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-17 16:49:26.587371
Title: SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations
Title（参考訳）: SonicMoE: IOとTile-aware最適化によるMoEの高速化
Authors: Wentao Guo, Mayank Mishra, Xinle Cheng, Ion Stoica, Tri Dao,
Abstract要約: 混合エキスパートモデル(MoE)は、計算コストを大幅に増加させることなく、言語モデルをスケールアップするためのデファクトアーキテクチャとして登場した。最小のアクティベーションキャッシングでMoEの前後パスを計算するメモリ効率のアルゴリズムを提案する。また,グループ化されたGEMMカーネルのパディングによる無駄計算を最小限に抑える新しい「トークンラウンドリング」手法を提案する。
参考スコア（独自算出の注目度）: 54.303301888915406
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Mixture of Experts (MoE) models have emerged as the de facto architecture for scaling up language models without significantly increasing the computational cost. Recent MoE models demonstrate a clear trend towards high expert granularity (smaller expert intermediate dimension) and higher sparsity (constant number of activated experts with higher number of total experts), which improve model quality per FLOP. However, fine-grained MoEs suffer from increased activation memory footprint and reduced hardware efficiency due to higher IO costs, while sparser MoEs suffer from wasted computations due to padding in Grouped GEMM kernels. In response, we propose a memory-efficient algorithm to compute the forward and backward passes of MoEs with minimal activation caching for the backward pass. We also design GPU kernels that overlap memory IO with computation benefiting all MoE architectures. Finally, we propose a novel "token rounding" method that minimizes the wasted compute due to padding in Grouped GEMM kernels. As a result, our method SonicMoE reduces activation memory by 45% and achieves a 1.86x compute throughput improvement on Hopper GPUs compared to ScatterMoE's BF16 MoE kernel for a fine-grained 7B MoE. Concretely, SonicMoE on 64 H100s achieves a training throughput of 213 billion tokens per day comparable to ScatterMoE's 225 billion tokens per day on 96 H100s for a 7B MoE model training with FSDP-2 using the lm-engine codebase. Under high MoE sparsity settings, our tile-aware token rounding algorithm yields an additional 1.16x speedup on kernel execution time compared to vanilla top-$K$ routing while maintaining similar downstream performance. We open-source all our kernels to enable faster MoE model training.
Abstract（参考訳）: 混合エキスパートモデル(MoE)は、計算コストを大幅に増加させることなく、言語モデルをスケールアップするためのデファクトアーキテクチャとして登場した。最近のMoEモデルは、FLOPあたりのモデル品質を改善するために、高い専門家の粒度(より小さい専門家の中間次元)と高い空間性(アクティブな専門家の数と高い専門家の数)への明確な傾向を示す。しかし、粒度の細かいMoEは、活性化メモリフットプリントの増大とIOコストの上昇によるハードウェア効率の低下に悩まされ、スペーサーMoEは、 Grouped GEMMカーネルのパディングによる無駄な計算に悩まされる。そこで本研究では,後方パスに対する最小のアクティベーションキャッシングで,MoEの前後パスを計算するメモリ効率のアルゴリズムを提案する。また、メモリIOに重なるGPUカーネルを設計し、すべてのMoEアーキテクチャの計算に役立ちます。最後に,グループ化されたGEMMカーネルのパディングによる無駄計算を最小限に抑える新しい「トークンラウンドリング」手法を提案する。その結果,SonicMoEは,ScatterMoEのBF16 MoEカーネルと比較して,活性化メモリを45%削減し,Hopper GPUの1.86倍のスループット向上を実現した。具体的には、64 H100s上のSonicMoEは、lm-engineコードベースを使用してFSDP-2で7B MoEモデルをトレーニングするために、96 H100s上でScatterMoEの225億トークンに匹敵する1日当たり213億トークンのトレーニングスループットを達成している。高MoE間隔設定の下では、タイル対応のトークンラウンドリングアルゴリズムは、同じダウンストリーム性能を維持しながら、バニラトップのK$ルーティングと比較して、カーネルの実行時間で1.16倍のスピードアップを得られる。より高速なMoEモデルトレーニングを可能にするために、すべてのカーネルをオープンソースにしています。

関連論文リスト

OmniMoE: An Efficient MoE by Orchestrating Atomic Experts at Scale [11.733927781098805]
我々は、エキスパートの粒度を論理的に極端に推し進めるシステム・アルゴリズムの共同設計フレームワークであるOmniMoEを提案する。 OmniMoEは、単一のMoE層内でスケーラブルなルーティングと実行を導入し、汎用処理のための共有高密度ブランチを維持している。 OmniMoEは、7つのベンチマークで50.9%のゼロショット精度を実現し、粗い粒度(DeepSeekMoEなど)、きめ細かい粒度(PEERなど)を上回ります。
論文参考訳（メタデータ） (2026-02-05T14:37:32Z)
ZipMoE: Efficient On-Device MoE Serving via Lossless Compression and Cache-Affinity Scheduling [56.88966608455977]
ZipMoEはエッジデバイスのハードウェア特性とMoEパラメータ固有の統計的冗長性との相乗効果を利用する。 ZipMoEは72.77%の推論遅延低減と6.76タイムのスループットを実現している。
論文参考訳（メタデータ） (2026-01-29T02:51:59Z)
MoEBlaze: Breaking the Memory Wall for Efficient MoE Training on Modern GPUs [9.086910335841772]
メモリウォール」のボトルネックは、現代の大規模Mixture-of-Experts (MoE)アーキテクチャで顕著に増幅されている。私たちは、メモリ効率のよいMoEトレーニングフレームワークであるMoEBlazeを紹介します。既存のMoEフレームワークと比較して、MoEBlazeは4倍以上のスピードアップと50%以上のメモリ節約を実現できます。
論文参考訳（メタデータ） (2026-01-08T08:38:23Z)
BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity [66.94629945519125]
我々は、新しいMoEアーキテクチャであるBlockFFNと、その効率的なトレーニングとデプロイメント技術を紹介します。具体的には、ReLUアクティベーションとRMSNormを統合したルータを、微分可能かつ柔軟なルーティングに使用します。次に、トークンレベルのスペーサ(TLS)とチャンクレベルのスペーサ(CLS)の両方を促進するために、CLS対応のトレーニング目標を設計し、BlockFFNをより加速しやすいものにした。
論文参考訳（メタデータ） (2025-07-11T17:28:56Z)
FlashMoE: Fast Distributed MoE in a Single Kernel [1.866526462692252]
FlashMoEは、専門家の計算とGPU間通信を単一の永続GPUカーネルに融合する、完全にGPU対応のMoE演算子である。我々は、FlashMoEがGPU利用率を最大9倍、レイテンシを6倍、スループットを5.7倍、オーバーラップ効率を最先端のベースラインに比べて4倍向上することを示した。
論文参考訳（メタデータ） (2025-06-05T06:29:14Z)
MoE-Gen: High-Throughput MoE Inference on a Single GPU with Module-Based Batching [2.543762777822215]
MoE-GenはシングルGPU実行のための高速なMoE推論システムである。モジュールベースのトークンを導入し、ホストメモリに蓄積し、大きなバッチを動的に起動して利用を最大化する。 MoE-Genは最先端システムに比べて8-31倍高いスループットを実現している。
論文参考訳（メタデータ） (2025-03-12T18:08:01Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
Revisiting MoE and Dense Speed-Accuracy Comparisons for LLM Training [45.97480866595295]
Mixture-of-Experts (MoE)は、計算コストを一定に保ちながら、モデルキャパシティを増大させることにより、パフォーマンスの向上を享受する。我々は高密度から高密度までのステップタイムを健全な範囲で増加させる3Dシャーディング法を採用した。
論文参考訳（メタデータ） (2024-05-23T21:00:53Z)
Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2～4ドル削減することができる。本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文参考訳（メタデータ） (2024-04-08T14:39:49Z)
MegaBlocks: Efficient Sparse Training with Mixture-of-Experts [19.541303844245835]
MegaBlocksはGPU上でのMixture-of-Experts(MoE)トレーニングを効率的に行うシステムである。ブロックスパース演算の観点からMoEを再構成し,新しいブロックスパースGPUカーネルを開発する。当社のアプローチではトークンやマップを現代的なハードウェアに効率的にドロップすることはなく、MoEよりも最大40%のエンドツーエンドのトレーニングスピードアップを実現しています。
論文参考訳（メタデータ） (2022-11-29T00:27:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。