Fugu-MT 論文翻訳(概要): MoEBlaze: Breaking the Memory Wall for Efficient MoE Training on Modern GPUs

論文の概要: MoEBlaze: Breaking the Memory Wall for Efficient MoE Training on Modern GPUs

arxiv url: http://arxiv.org/abs/2601.05296v1
Date: Thu, 08 Jan 2026 08:38:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-12 17:41:49.735042
Title: MoEBlaze: Breaking the Memory Wall for Efficient MoE Training on Modern GPUs
Title（参考訳）: MoEBlaze: 最新のGPU上での効率的なMoEトレーニングのためにメモリウォールを壊す
Authors: Jiyuan Zhang, Yining Liu, Siqi Yan, Lisen Deng, Jennifer Cao, Shuqi Yang, Min Ni, Bi Xue, Shen Li,
Abstract要約: メモリウォール」のボトルネックは、現代の大規模Mixture-of-Experts (MoE)アーキテクチャで顕著に増幅されている。私たちは、メモリ効率のよいMoEトレーニングフレームワークであるMoEBlazeを紹介します。既存のMoEフレームワークと比較して、MoEBlazeは4倍以上のスピードアップと50%以上のメモリ節約を実現できます。
参考スコア（独自算出の注目度）: 9.086910335841772
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The pervasive "memory wall" bottleneck is significantly amplified in modern large-scale Mixture-of-Experts (MoE) architectures. MoE's inherent architectural sparsity leads to sparse arithmetic compute and also introduces substantial activation memory overheads -- driven by large token routing buffers and the need to materialize and buffer intermediate tensors. This memory pressure limits the maximum batch size and sequence length that can fit on GPUs, and also results in excessive data movements that hinders performance and efficient model scaling. We present MoEBlaze, a memory-efficient MoE training framework that addresses these issues through a co-designed system approach: (i) an end-to-end token dispatch and MoE training method with optimized data structures to eliminate intermediate buffers and activation materializing, and (ii) co-designed kernels with smart activation checkpoint to mitigate memory footprint while simultaneously achieving better performance. We demonstrate that MoEBlaze can achieve over 4x speedups and over 50% memory savings compared to existing MoE frameworks.
Abstract（参考訳）: 広く普及している"メモリウォール"のボトルネックは、現代の大規模Mixture-of-Experts (MoE)アーキテクチャにおいて顕著に増幅されている。 MoEの固有のアーキテクチャの疎さは、スパース演算計算につながり、大きなトークンルーティングバッファと中間テンソルの実体化とバッファ化の必要性によって、大きなアクティベーションメモリオーバーヘッドも導入されている。このメモリプレッシャは、GPUに適合する最大バッチサイズとシーケンス長を制限するとともに、パフォーマンスと効率的なモデルスケーリングを妨げる過剰なデータ移動をもたらす。私たちは、メモリ効率のよいMoEトレーニングフレームワークであるMoEBlazeを紹介します。 (i)中間バッファやアクティベーションの実体化を解消する最適化されたデータ構造を用いたエンドツーエンドトークンディスパッチおよびMoE訓練方法 (II) メモリフットプリントを軽減しつつ、性能の向上を図るため、スマートアクティベーションチェックポイントを備えた共同設計のカーネル。既存のMoEフレームワークと比較して、MoEBlazeは4倍以上のスピードアップと50%以上のメモリ節約を実現できます。

関連論文リスト

AllMem: A Memory-centric Recipe for Efficient Long-context Modeling [32.025154452526856]
大規模言語モデル(LLM)は、長時間のタスクにおいて重大なパフォーマンスボトルネックに直面する。 SWA(Sliding Window Attention)とTTT(Non-linear Test-Time Training)メモリネットワークを統合した,新規で効率的なハイブリッドアーキテクチャであるtextscAllMemを紹介する。
論文参考訳（メタデータ） (2026-02-14T09:04:28Z)
Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts [68.79341332280062]
長いコンテキストでの大規模言語モデル(LLM)のトレーニングは、トレーニング時間ではなく、GPUメモリの異常なオーバーヘッドによって厳しく制限される。この障壁に直面するメモリ効率の高いトレーニングシステムOOMBを紹介します。本手法では,オンザフライアクティベーション・リコンピュテーションを備えたチャンク・リカレント・トレーニング・フレームワークを用いて,一定のアクティベーションメモリフットプリントを維持する。
論文参考訳（メタデータ） (2026-02-02T13:52:40Z)
ZipMoE: Efficient On-Device MoE Serving via Lossless Compression and Cache-Affinity Scheduling [56.88966608455977]
ZipMoEはエッジデバイスのハードウェア特性とMoEパラメータ固有の統計的冗長性との相乗効果を利用する。 ZipMoEは72.77%の推論遅延低減と6.76タイムのスループットを実現している。
論文参考訳（メタデータ） (2026-01-29T02:51:59Z)
SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations [54.303301888915406]
混合エキスパートモデル(MoE)は、計算コストを大幅に増加させることなく、言語モデルをスケールアップするためのデファクトアーキテクチャとして登場した。最小のアクティベーションキャッシングでMoEの前後パスを計算するメモリ効率のアルゴリズムを提案する。また,グループ化されたGEMMカーネルのパディングによる無駄計算を最小限に抑える新しい「トークンラウンドリング」手法を提案する。
論文参考訳（メタデータ） (2025-12-16T04:39:10Z)
Mixture-of-Channels: Exploiting Sparse FFNs for Efficient LLMs Pre-Training and Inference [16.71963410333802]
大規模言語モデル(LLM)は、多様な人工知能タスクで顕著な成功を収めている。 MoCは、事前トレーニング中のアクティベーションメモリを大幅に削減する。 MoCは、競合モデルのパフォーマンスを維持しながら、メモリの大幅な節約とスループットの向上を提供する。
論文参考訳（メタデータ） (2025-11-12T13:30:57Z)
Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [108.0657508755532]
我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
論文参考訳（メタデータ） (2025-07-09T07:27:00Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。 SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文参考訳（メタデータ） (2023-09-19T03:20:02Z)
Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference [23.207326766883405]
Mixture-of-Experts (MoE)は、計算要求を比例的にスケールアップすることなく、モデルサイズをスケールすることができる。プレゲートMOEは、スパース専門家活性化の動的性質を緩和する新しいプレゲート機能を用いている。我々は、Pre-gated MoEが、同じレベルのモデル品質を維持しながら、パフォーマンスを改善し、GPUメモリ消費を減らすことを実証した。
論文参考訳（メタデータ） (2023-08-23T11:25:37Z)
MegaBlocks: Efficient Sparse Training with Mixture-of-Experts [19.541303844245835]
MegaBlocksはGPU上でのMixture-of-Experts(MoE)トレーニングを効率的に行うシステムである。ブロックスパース演算の観点からMoEを再構成し,新しいブロックスパースGPUカーネルを開発する。当社のアプローチではトークンやマップを現代的なハードウェアに効率的にドロップすることはなく、MoEよりも最大40%のエンドツーエンドのトレーニングスピードアップを実現しています。
論文参考訳（メタデータ） (2022-11-29T00:27:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。