論文の概要: Multi-Head LatentMoE and Head Parallel: Communication-Efficient and Deterministic MoE Parallelism
- arxiv url: http://arxiv.org/abs/2602.04870v1
- Date: Wed, 04 Feb 2026 18:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.697836
- Title: Multi-Head LatentMoE and Head Parallel: Communication-Efficient and Deterministic MoE Parallelism
- Title(参考訳): Multi-Head LatentMoE and Head Parallel: Communication-Efficient and Deterministic MoE Parallelism
- Authors: Chenwei Cui, Rockwell Jackson, Benjamin Joseph Herrera, Ana María Tárano, Hannah Kerner,
- Abstract要約: Multi-Head LatentMoEとHead Parallelは、$k$、完全にバランスの取れたトラフィック、決定論的通信に関わらず、$O(1)$通信コストを達成する。
MoE と EP と比較すると、HP の Multi-Head LatentMoE は、同じ性能を保ちながら、最大で1.61Times$の速度で走行する。
- 参考スコア(独自算出の注目度): 7.862911132148511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have transformed many applications but remain expensive to train. Sparse Mixture of Experts (MoE) addresses this through conditional computation, with Expert Parallel (EP) as the standard distributed training method. However, EP has three limitations: communication cost grows linearly with the number of activated experts $k$, load imbalance affects latency and memory usage, and data-dependent communication requires metadata exchange. We propose Multi-Head LatentMoE and Head Parallel (HP), a new architecture and parallelism achieving $O(1)$ communication cost regardless of $k$, completely balanced traffic, and deterministic communication, all while remaining compatible with EP. To accelerate Multi-Head LatentMoE, we propose IO-aware routing and expert computation. Compared to MoE with EP, Multi-Head LatentMoE with HP trains up to $1.61\times$ faster while having identical performance. With doubled granularity, it achieves higher overall performance while still being $1.11\times$ faster. Our method makes multi-billion-parameter foundation model research more accessible.
- Abstract(参考訳): 大規模な言語モデルは多くのアプリケーションを変えてきたが、トレーニングには高価である。
Sparse Mixture of Experts (MoE) は条件計算によってこの問題に対処し、Expert Parallel (EP) を標準的な分散トレーニング手法とする。
しかし、EPには3つの制限がある: 通信コストはアクティベートされたエキスパート数$k$で線形に増加し、ロード不均衡はレイテンシとメモリ使用量に影響し、データ依存通信はメタデータ交換を必要とする。
EPとの互換性を保ちながら、$k$、完全にバランスの取れたトラフィック、決定論的通信によらず、$O(1)$の通信コストを達成できる新しいアーキテクチャと並列性を備えたマルチヘッドラテントモエとヘッドパラレル(HP)を提案する。
マルチヘッドLatentMoEを高速化するために,IO対応ルーティングとエキスパート計算を提案する。
MoE と EP と比較すると、HP の Multi-Head LatentMoE は1.61\times$で同じ性能を持つ。
粒度が2倍になると、全体的なパフォーマンスが向上し、なおも1.11\times$の高速化を実現している。
提案手法により, マルチビリオンパラメータ基礎モデルの研究が容易になる。
関連論文リスト
- MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping [52.02659589971978]
我々は,MoE MLLM推論を効果的かつ正確なものにするために,専門家を適応的にスキップする最初のトレーニングフリーフレームワークであるMoDESを提案する。
MoDESは推論速度を大幅に向上させ、プリフィルタイムを2.16$times$、デコードタイムを1.26$times$に改善する。
論文 参考訳(メタデータ) (2025-11-19T18:48:27Z) - Occult: Optimizing Collaborative Communication across Experts for Accelerated Parallel MoE Training and Inference [77.07591324890537]
通信コストを削減するために,システムレベルのイノベーションとアルゴリズムレベルのイノベーションを提案する。
共同作業の比率を増大させることで,専門家の並列化を促進できることを示す。
私たちの設計では、通信コストを削減した正確な結果を提供するか、コラボレーションプルーニングによるコストを最小限に抑えるかのどちらかが可能です。
論文 参考訳(メタデータ) (2025-05-19T16:50:27Z) - Speculative MoE: Communication Efficient Parallel MoE Inference with Speculative Token and Expert Pre-scheduling [3.529891364583952]
MoE(Mixture of Experts)は、現代のトランスフォーマーベースのLLM(Large Language Models)を前例のない規模に拡張可能なニューラルネットワークとして普及している。
最先端のMoE推論フレームワークであるDeepSpeed-MoEは、EP(Expert Parallelism)、TP(Tensor Parallel)、DP(Data Parallelism)を含む3D並列パラダイムを採用している。
本研究の目的は,EPの通信オーバヘッドをSpeculative MoEという技術で戦略的に削減し,DeepSpeed-MoEを向上することである。
論文 参考訳(メタデータ) (2025-03-06T12:52:22Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Parm: Efficient Training of Large Sparsely-Activated Models with Dedicated Schedules [15.680276212483292]
本稿では,MP+EP+ESP学習を高速化するParmを提案する。
Parmは、1.13$times$から5.77$times$のスピードアップを実現し、1296年に手動で設定されたMoEレイヤと、2つの現実世界のMoEモデルで約3$times$の改善を行った。
論文 参考訳(メタデータ) (2024-06-30T05:55:11Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。
本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。
PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文 参考訳(メタデータ) (2023-04-22T14:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。